第8页 - 关于hdfs的讨论汇总 - 话题女王

w**z
发帖数: 8232

来自主题: Programming版 - persistence的选择

从benchmark 看hbase is the best. 但它有single point of failure , 管理起来比
较复杂。但好处是用hdfs , 和hadoop 象一个娘养的。

z*******3
发帖数: 13709

dropbox是文件系统
instragram也是文件系统，适用hdfs
wechat是message，跟通信还有twitter类似
大部分都是瞬时连接的网络协议比如http搞定
现在后端唯一有所不同的可能就剩下那种3d网游了
这个主要是网络协议有所区别
网游的server不是一般的web server能搞定的
需要定制，要能支持多个客户端在相当长时间内保持连接的状态
而且处理逻辑相对复杂，比较难做切割，很多手段用不上
但是一般app游戏的后端问题不大
netflix这种看片的后端也还好

z*******3
发帖数: 13709

来自主题: Programming版 - Web不是已经走下坡路很久了么...

w**z
发帖数: 8232

来自主题: Programming版 - NOSQL排名

HBase和Hadoop都是用HDFS 存储。
Cassandra 不是，除非你付钱用Datastax enterprise version.

r****c
发帖数: 2585

来自主题: Programming版 - AWS cloud 内部做log，大家怎么设计

你这是structure log还是debug log？
36楼说的不错，用log saver类似的，存到HDFS
debug的话就看文件，structure的话更简单，直接起个mr查

d*******r
发帖数: 3299

来自主题: Programming版 - AWS cloud 内部做log，大家怎么设计

请问你可否说详细点?
我不懂 structure log 和 debug log 这种提法。
我的log是要回头编程查询的，所以 log 一条条肯定要是有一定 structure 的，不是
无结构的 text stream
比如像 JSON一样的
{'time':'01-07-2014:08:00pm', 'writer':'srv1.video.xxcom.com', 'event-type'
:'error-xx' ...}
存到 HDFS, 在起个 mr? 没太懂
抱歉 hadoop 不熟悉.

f*******t
发帖数: 7549

来自主题: Programming版 - 有没有什么轮子可以管理大堆的binary文件啊？

你如果只是找个地方存，用hadoop的hdfs就可以。调用起来跟单机文件系统没什么区别
。

r****c
发帖数: 1494

来自主题: Programming版 - 有没有什么轮子可以管理大堆的binary文件啊？

貌似感觉用数据库存下文件的位置，然后文件放hdfs上也是可以。
不过感觉这样很山寨啊。如果有现成的方案当然更好了。

r**********g
发帖数: 22734

来自主题: Programming版 - c++程序员不要把头埋在沙子里了

呃，蜥蜴你说java不用管内存是不对滴。我搞hadoop还自己搞了java实现的swap space
。java 的内存不仔细优化照样不知道怎么死的。除非你就是写写business logic。其
实真要碰到memory hog的大程序，还是得上C++。好几次都是彻底没辙上了JNI。
你看看Hadoop，HDFS的库是不是还有一陀C++在里面丫

g*****g
发帖数: 34805

来自主题: Programming版 - c++程序员不要把头埋在沙子里了

轮子不断出现，跟需要JNI是俩码事。Hadoop相关的轮子一堆，有几个用到JNI的？
Hadoop本身有一些JNI，那主要是为了其他语言可以访问HDFS。

z*******h
发帖数: 346

来自主题: Programming版 - 举几个java换成C++的例子

比如MapR的文件系统就是用C++重写的，比Apache HDFS快一个量级。
比如Cloudera的Impala是Oracle跳过去的人用C++写的，比Hive快一个量级。

c***d
发帖数: 996

来自主题: Programming版 - 机械硬盘的物理极限

这点有点象电池，也是不服从摩尔定律，但是严重影响architecture design的。从
memcached, redis, 到big table, hdfs, 都是因为硬盘的物理极限。

c*****e
发帖数: 3226

来自主题: Programming版 - 那个 distributed file sysyem 适合我的需求

1） the file system will be distributed across 3 台机器
2）文件系统将被 apache farms mount to local file system 用于 serves
static files and 文件上传
3）任何一台机器突然断电不要丢失数据。
4）这个系统最好安装简单，小巧。
hdfs? owfs? Ceph? shrift?

g*****g
发帖数: 34805

来自主题: Programming版 - 那个 distributed file sysyem 适合我的需求

必须内部那你还是hdfs吧。

z****e
发帖数: 54598

来自主题: Programming版 - 那个 distributed file sysyem 适合我的需求

你信不信你最终会end up到hdfs和hadoop
cassandra来做cache管理这个最最最传统的方法上
所以说，无脑上就没错，讨论这么多不累么？我看着都累啊

z****e
发帖数: 54598

来自主题: Programming版 - 那个 distributed file sysyem 适合我的需求

我觉得HDFS是一种GENERAL PURPOSE的系统
如果不是有什么很特殊的要求，就无脑上
我是这么搞的

N*n
发帖数: 456

来自主题: Programming版 - 那个 distributed file sysyem 适合我的需求

搜了一下
Ceph 似乎是比 GFS 更新一些的系统。。 HDFS 就是Hadoop FS.. 其它两个都
没找到。
我的经验，这些cluster FS还真是有差别的。。设置，维护的难易程度挺不一样的。
文件数量大到一定程度以后是否撑得住。。平时运行好好的，加个security patch
重启一下回不来了或者在 fsck..从这个角度，云确实对开发者看起来是好事。。省
很多这些零碎问题。。

c*****a
发帖数: 1638

来自主题: Programming版 - 那个 distributed file sysyem 适合我的需求

HDFS只能作为一个分布式处理系统的支撑，作为一个独立的文件系统来说，功能太弱了
。从长远来说，如果只是作为文件存储的解决方案，我个人觉得对未来功能扩展能提供
的可能性太低。

D*******a
发帖数: 3688

来自主题: Programming版 - 那个 distributed file sysyem 适合我的需求

试过glusterfs吗？
hdfs好像没有人直接用来serve static files的，而且也不是很好集成吧（至少需要写
点code）

m********l
发帖数: 791

来自主题: Programming版 - Graph database 业界用的多吗？ (转载)

您说的本质是什么呢？
我刚开始接触NoSQL这块，不是很了解之前在HDFS上写过mapreduce，pig，hive这些

p*****2
发帖数: 21240

来自主题: Programming版 - 坛子里有人搞HBase的吗？

hadoop可以用hdfs吧

z****e
发帖数: 54598

来自主题: Programming版 - 坛子里有人搞HBase的吗？

可以阿，但是纯文件搞起来也有些低效率
当然还是优先考虑堆轮子了
hdfs上也没有其他数据库可以用了

s*****t
发帖数: 89

来自主题: Programming版 - 写脚本真麻烦

类型的话可以用王垠同学的PySonar2产生出来文档随时查阅（https://github.com/
yinwang0/pysonar2），不过我分析python的标准库花了半个多小时，好在这种静态分
析做一次就够了。
安装的话倒是从来没与到过什么问题，讨厌的是2和3之间换来换去的情况，又不想给系
统里面赛太多依赖只好用virtualenv了
IDE 尝试了PyCharm Ninja，最后发现IDE的效率都不如ipython notebook。
我写的时候基本上是这个套路：
0:新开一个cell，测试下库的用法
1:基本控制流，每次写一点Shift Enter就知道结果了
2:等到写了几百行了拆几个函数、封装成类什么的，不过我又不做通用库，都是给自己
写着用的，所以不太喜欢用OO的哪些东西。
可能有人一上来就比较注意大局，考虑问题比较周全，但那样也挺浪费时间的，就像楼
主说的只要思路清楚了其实那些art的部分不太要紧了。
3:合并cell，保存成py文件，丢给python、cython
等功能正确了就开始做点profile用cython优化下，受sage的老大的文章影响不太喜欢
swi... 阅读全帖

h*****4
发帖数: 4219

来自主题: Programming版 - hbase的问题

在本地有三个project，A 和C 都是maven dependent on B，在B里有关于连接HBase读
写操作的API。他们用的是同样的hbase-site.xml，hdfs-site.xml和core-site.xml，
但现在B和C都可以成功连接并读写而A不行。A里面返回NoServerForRegionException.
查了他们的config，在HBaseConfiguration.create时B是有yarn-default.xml和yarn-
site.xml而A没有，还没有测试C里面有没有...
请问版上大牛们，这个yarn跟HBase的连接有关吗？再一个怀疑点时hbase-env.sh需要
放在test/resources里面吗？在B里面放着不过A和C应该都没放。谢谢指点

M*****R
发帖数: 650

来自主题: Programming版 - 请问java /c++ 双修的大牛，java和c++最主要的区别是什么？c++程序员转java您认为最需要补充的知识是什么

I am no Daniu, but I just finished transitioning from C++/C#/Windows
Platform to Java/Open Source Platform in last couple of years. There are a
few things I think that helped me a lot
- The two books: Core Java Volume I, Java Concurrency in Practice
- Read about dependency injection, from Spring to Guice
- Re-read a few design patterns
- Learn to use Java inner class and template pattern
- Read about JVM
- Don't focus too much on performance and memory management when coding
- Don't try to use l... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - Goodbug你给个学java的roadmap吧

你一搞数据的
古德霸说的那些可能关联不是非常大
尤其是hibernate，spring，这两个跟你啥关系？
hibernate你需要写orm去crud数据么？
spring跟你也未必有很大关系
你应该优先考虑cassandra和spark
这两个跟你的关联最大
其次是hdfs这些
尤其是spark以后会有sql和ml的pkg
这两个才跟你对接得比较紧密

z****e
发帖数: 54598

来自主题: Programming版 - 学scala和spark需要什么pre req?

学spark不需要scala，你会python就行
关键是要明白spark在做啥事，最好之前有hadoop的基础
hdfs，cassandra这些，说到底就是数据处理
学scala会java就可以开始了
scala的console还是比较好用的

z****e
发帖数: 54598

来自主题: Programming版 - 试了下spark，不过如此啊

3－5年吧
现在是刚开始
hadoop和spark有啥冲突的
hdfs这些还得用啊，spark又不管这些

B*****g
发帖数: 34098

来自主题: Programming版 - 试了下spark，不过如此啊

大牛讲讲用卡桑取代hdfs的理由

interactive

n******t
发帖数: 4406

来自主题: Programming版 - 已经全上内存了，还要40多秒啊

这么搞法，和把HDFS全部跑在ram disk上比起来优势在哪里？

z****e
发帖数: 54598

来自主题: Programming版 - 已经全上内存了，还要40多秒啊

我就说嘛，老是做这种算术操作，迟早被人骂
猴屁股这种level就没那么容易忽悠
最好的方式干脆对比kmeans，用mllib做一次kmeans
然后对比全部跑在ram上的hdfs的kmeans
那个应该可以用scala做一定程度上的优化
就是coltzhao说的那些优化手段

z****e
发帖数: 54598

来自主题: Programming版 - Spark会干掉Storm吗？

嗯，storm可以接收来自其他server的stream
spark还是主要针对persistence，现在也只针对hdfs
cassandra的支持都还只是刚刚起步

p*****2
发帖数: 21240

来自主题: Programming版 - 以后真的是cassandra spark的天下了？

spark跟hdfs集成好恶心呀

p*****2
发帖数: 21240

来自主题: Programming版 - 谈谈为什么上scala

一个是算法，算法复杂了以后callback还是很难表达
另外一个是并发模式，node只有一个cluster模式，想解决的事情复杂了以后，感觉不
是太够用
我们最近做一个任务，把240G的数据从HDFS倒到cassandra，要求在10分钟之内，这样
一台机器基本不够用，必须上districuted，这样的话，无论akka还是spark都可以完成
这个任务，但是node就很难了，当然也不是不可能，不过估计要花我一些时间去做个
distributed app。
总之，Node的优势是做web service，或者startup/小项目的full stack。真正的大数
据的解决方案还是要在JVM上解决。

C********g
发帖数: 1548

来自主题: Programming版 - 可以建公司内部的HDFS吗？

我直觉它对硬件要求低，应该可以降低cost，并且可扩展性很强。

c****e
发帖数: 1453

来自主题: Programming版 - 可以建公司内部的HDFS吗？

Reports said Hadoop can reduce 30% cost on data warehouse. But don't
underestimate the operation barrier.

p*****2
发帖数: 21240

来自主题: Programming版 - 可以建公司内部的HDFS吗？

不如上cassandra

C********g
发帖数: 1548

来自主题: Programming版 - 可以建公司内部的HDFS吗？

谢谢指正。我确实是那么理解的。

g*********e
发帖数: 14401

来自主题: Programming版 - 可以建公司内部的HDFS吗？

还可以被spark用
但都是很intuitive的计算

z****e
发帖数: 54598

来自主题: Programming版 - 可以建公司内部的HDFS吗？

不过你们才40k个enrollments
这点数量，根本不需要什么erp
直接自己从php建起都能搞定

p*****2
发帖数: 21240

来自主题: Programming版 - coltzhao的公司还在用mongo吗？

可以把mongo数据先导到hdfs
cassandra connnector 已经算容易用得了相对来说 spark 还是太早期

z****e
发帖数: 54598

来自主题: Programming版 - coltzhao的公司还在用mongo吗？

关键是yarn上弄ml很恶心
啥都要自己动手，很麻烦
而且hadoop sql不管是hive还是pig
都做得不三不四的
虽然说hdfs离真正的real time处理，还有很长一段距离
但是hive和pig也慢得可以了
mapreduce现在沦为一个batch工具
这里面显然有很大的提升空间
spark至少说rdd模型就把这个给做了
然后再谈sql, r和ml这些上层建筑
我觉得很make sense，把rdd看成一个cache就是了
分布式每层都做一个cache很正常
db，web/app server这些都有内嵌的cache
而mapreduce则没有
现在主流公司集体转向spark，都全力支持spark
固然有这样那样的问题，但是比起hadoop的mapreduce
感觉是要好很多了，spark上再搞sql这些，才是the way to go

apply

z****e
发帖数: 54598

来自主题: Programming版 - coltzhao的公司还在用mongo吗？

我对hadoop最大的抱怨就是hdfs跟mapreduce结合过于紧密
分开的话，其实没那么复杂
但是分开又不符合hadoop整个项目组的利益
又大又全几乎是所有项目的陷阱
往往到后面，你只用其中十分之一的东西
另外上spark真不用scala
用轮子不需要懂得怎么造轮子
你用spark，python都可以，为啥非要scala？
对scala唯一要求就是down下来，设置一下SCALA_HOME就可以了
如果觉得java没有shell的话
打开eclipse就可以当一个复杂化的shell用
python和scala都有shell

m******e
发帖数: 201

来自主题: Programming版 - Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？

一般有个job scheduler，比如很多用java的公司会用oozie，每天固定时间跑一次
Hadoop jobs。可以有任意多个job，互相之间也可以有依赖关系。跑完的结果可以存
HBase，RDBMS(MySQL,Oracle...，一般aggregated data)，或者直接就是HDFS里。用
Java裸写Hadoop程序的已经越来越少。都是Hive/Pig生成的。还有很多ac-hoc query一
般就是用Hive。

/

w********m
发帖数: 1137

来自主题: Programming版 - python真是一个很恶心的语言。

反正linux层和hdfs层上都要用python，干脆一口气都用python了。
另外，哪去找会scala的

z****e
发帖数: 54598

来自主题: Programming版 - python真是一个很恶心的语言。

hdfs是jvm上的东西，你用python？
那个是jython吧
你们是c++转过来的程序员
因为hadoop流行，所以不得不上java
所以瞎搞，python慢死，根本不能在生产中用
spark你要是用python，那个是cinterpreter
可以让你比用java写慢上几十倍一点问题没有

w********m
发帖数: 1137

来自主题: Programming版 - python真是一个很恶心的语言。

搞startup一开始就是一个连EC2的SSH
最少要搭个demo出来，骗骗投资人吧
要搞java的话，估计只有到印度新德里搬运烙印，明年十月上班，谁能撑那么久
现在大部分大学毕业生都懂点python，注意--不是CS专业的
startup顺便拉个人就可以开工
以前的storm，shark也不是不好，太复杂了，没人会用
databricks的人从Berkeley出来的，知道现状，于是把spark上面的python搞好，到处
用ipython notebook作介绍，大家一看都会，马上火爆了。
到hdfs上查个log，没人愿意用java现写个类库。所以，现在的大趋势是java做轮子，
python用轮子。

w********m
发帖数: 1137

来自主题: Programming版 - python真是一个很恶心的语言。

不是hadoop和spark的committer，没兴趣关心jvm。用轮子的真不觉得轮子怎么做很重
要。
测试过scala和python在spark上的表现，没觉得你说的后者比前者慢几十倍。主要瓶颈
是RDD到hdfs的IO，这跟语言有什么关系。
另外，spark上怎么用groovy。

w********m
发帖数: 1137

来自主题: Programming版 - python真是一个很恶心的语言。

反正linux层和hdfs层上都要用python，干脆一口气都用python了。
另外，哪去找会scala的

z****e
发帖数: 54598

来自主题: Programming版 - python真是一个很恶心的语言。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天