w**z 发帖数: 8232 | 1 从benchmark 看hbase is the best. 但它有single point of failure , 管理起来比
较复杂。但好处是用hdfs , 和hadoop 象一个娘养的。 |
|
z*******3 发帖数: 13709 | 2 dropbox是文件系统
instragram也是文件系统,适用hdfs
wechat是message,跟通信还有twitter类似
大部分都是瞬时连接的网络协议比如http搞定
现在后端唯一有所不同的可能就剩下那种3d网游了
这个主要是网络协议有所区别
网游的server不是一般的web server能搞定的
需要定制,要能支持多个客户端在相当长时间内保持连接的状态
而且处理逻辑相对复杂,比较难做切割,很多手段用不上
但是一般app游戏的后端问题不大
netflix这种看片的后端也还好 |
|
z*******3 发帖数: 13709 | 3 dropbox是文件系统
instragram也是文件系统,适用hdfs
wechat是message,跟通信还有twitter类似
大部分都是瞬时连接的网络协议比如http搞定
现在后端唯一有所不同的可能就剩下那种3d网游了
这个主要是网络协议有所区别
网游的server不是一般的web server能搞定的
需要定制,要能支持多个客户端在相当长时间内保持连接的状态
而且处理逻辑相对复杂,比较难做切割,很多手段用不上
但是一般app游戏的后端问题不大
netflix这种看片的后端也还好 |
|
w**z 发帖数: 8232 | 4 HBase和Hadoop都是用HDFS 存储。
Cassandra 不是,除非你付钱用Datastax enterprise version. |
|
r****c 发帖数: 2585 | 5 你这是structure log还是debug log?
36楼说的不错,用log saver类似的,存到HDFS
debug的话就看文件,structure的话更简单,直接起个mr查 |
|
d*******r 发帖数: 3299 | 6 请问你可否说详细点?
我不懂 structure log 和 debug log 这种提法。
我的log是要回头编程查询的,所以 log 一条条肯定要是有一定 structure 的,不是
无结构的 text stream
比如像 JSON一样的
{'time':'01-07-2014:08:00pm', 'writer':'srv1.video.xxcom.com', 'event-type'
:'error-xx' ...}
存到 HDFS, 在起个 mr? 没太懂
抱歉 hadoop 不熟悉. |
|
f*******t 发帖数: 7549 | 7 你如果只是找个地方存,用hadoop的hdfs就可以。调用起来跟单机文件系统没什么区别
。 |
|
r****c 发帖数: 1494 | 8 貌似感觉用数据库存下文件的位置,然后文件放hdfs上也是可以。
不过感觉这样很山寨啊。如果有现成的方案当然更好了。 |
|
r**********g 发帖数: 22734 | 9 呃,蜥蜴你说java不用管内存是不对滴。我搞hadoop还自己搞了java实现的swap space
。java 的内存不仔细优化照样不知道怎么死的。除非你就是写写business logic。其
实真要碰到memory hog的大程序,还是得上C++。好几次都是彻底没辙上了JNI。
你看看Hadoop,HDFS的库是不是还有一陀C++在里面丫 |
|
g*****g 发帖数: 34805 | 10 轮子不断出现,跟需要JNI是俩码事。Hadoop相关的轮子一堆,有几个用到JNI的?
Hadoop本身有一些JNI,那主要是为了其他语言可以访问HDFS。 |
|
z*******h 发帖数: 346 | 11 比如MapR的文件系统就是用C++重写的,比Apache HDFS快一个量级。
比如Cloudera的Impala是Oracle跳过去的人用C++写的,比Hive快一个量级。 |
|
c***d 发帖数: 996 | 12 这点有点象电池, 也是不服从摩尔定律,但是严重影响architecture design的。 从
memcached, redis, 到big table, hdfs, 都是因为硬盘的物理极限。 |
|
c*****e 发帖数: 3226 | 13 1) the file system will be distributed across 3 台机器
2) 文件系统将被 apache farms mount to local file system 用于 serves
static files and 文件上传
3) 任何一台机器突然 断电不要丢失数据。
4) 这个系统最好安装简单, 小巧。
hdfs? owfs? Ceph? shrift? |
|
|
z****e 发帖数: 54598 | 15 你信不信你最终会end up到hdfs和hadoop
cassandra来做cache管理这个最最最传统的方法上
所以说,无脑上就没错,讨论这么多不累么?我看着都累啊 |
|
z****e 发帖数: 54598 | 16 我觉得HDFS是一种GENERAL PURPOSE的系统
如果不是有什么很特殊的要求,就无脑上
我是这么搞的 |
|
N*n 发帖数: 456 | 17 搜了一下
Ceph 似乎是比 GFS 更新一些的系统。。 HDFS 就是Hadoop FS.. 其它两个都
没找到。
我的经验,这些cluster FS还真是有差别的。。设置,维护的难易程度挺不一样的。
文件数量大到一定程度以后是否撑得住。。平时运行好好的,加个security patch
重启一下回不来了或者在 fsck..从这个角度,云确实对开发者看起来是好事。。省
很多这些零碎问题。。 |
|
c*****a 发帖数: 1638 | 18 HDFS只能作为一个分布式处理系统的支撑,作为一个独立的文件系统来说,功能太弱了
。从长远来说,如果只是作为文件存储的解决方案,我个人觉得对未来功能扩展能提供
的可能性太低。 |
|
D*******a 发帖数: 3688 | 19 试过glusterfs吗?
hdfs好像没有人直接用来serve static files的,而且也不是很好集成吧(至少需要写
点code) |
|
m********l 发帖数: 791 | 20 您说的本质是什么呢?
我刚开始接触NoSQL这块,不是很了解 之前在HDFS上写过mapreduce,pig,hive这些 |
|
|
z****e 发帖数: 54598 | 22 可以阿,但是纯文件搞起来也有些低效率
当然还是优先考虑堆轮子了
hdfs上也没有其他数据库可以用了 |
|
s*****t 发帖数: 89 | 23 类型的话可以用王垠同学的PySonar2产生出来文档随时查阅(https://github.com/
yinwang0/pysonar2),不过我分析python的标准库花了半个多小时,好在这种静态分
析做一次就够了。
安装的话倒是从来没与到过什么问题,讨厌的是2和3之间换来换去的情况,又不想给系
统里面赛太多依赖只好用virtualenv了
IDE 尝试了PyCharm Ninja,最后发现IDE的效率都不如ipython notebook。
我写的时候基本上是这个套路:
0:新开一个cell,测试下库的用法
1:基本控制流,每次写一点Shift Enter就知道结果了
2:等到写了几百行了拆几个函数、封装成类什么的,不过我又不做通用库,都是给自己
写着用的,所以不太喜欢用OO的哪些东西。
可能有人一上来就比较注意大局,考虑问题比较周全,但那样也挺浪费时间的,就像楼
主说的只要思路清楚了其实那些art的部分不太要紧了。
3:合并cell,保存成py文件,丢给python、cython
等功能正确了就开始做点profile用cython优化下,受sage的老大的文章影响不太喜欢
swi... 阅读全帖 |
|
h*****4 发帖数: 4219 | 24 在本地有三个project,A 和C 都是maven dependent on B, 在B里有关于连接HBase读
写操作的API。他们用的是同样的hbase-site.xml,hdfs-site.xml和core-site.xml,
但现在B和C都可以成功连接并读写而A不行。A里面返回NoServerForRegionException.
查了他们的config,在HBaseConfiguration.create时B是有yarn-default.xml和yarn-
site.xml而A没有,还没有测试C里面有没有...
请问版上大牛们,这个yarn跟HBase的连接有关吗?再一个怀疑点时hbase-env.sh需要
放在test/resources里面吗?在B里面放着不过A和C应该都没放。 谢谢指点 |
|
M*****R 发帖数: 650 | 25 I am no Daniu, but I just finished transitioning from C++/C#/Windows
Platform to Java/Open Source Platform in last couple of years. There are a
few things I think that helped me a lot
- The two books: Core Java Volume I, Java Concurrency in Practice
- Read about dependency injection, from Spring to Guice
- Re-read a few design patterns
- Learn to use Java inner class and template pattern
- Read about JVM
- Don't focus too much on performance and memory management when coding
- Don't try to use l... 阅读全帖 |
|
z****e 发帖数: 54598 | 26 你一搞数据的
古德霸说的那些可能关联不是非常大
尤其是hibernate,spring,这两个跟你啥关系?
hibernate你需要写orm去crud数据么?
spring跟你也未必有很大关系
你应该优先考虑cassandra和spark
这两个跟你的关联最大
其次是hdfs这些
尤其是spark以后会有sql和ml的pkg
这两个才跟你对接得比较紧密 |
|
z****e 发帖数: 54598 | 27 学spark不需要scala,你会python就行
关键是要明白spark在做啥事,最好之前有hadoop的基础
hdfs,cassandra这些,说到底就是数据处理
学scala会java就可以开始了
scala的console还是比较好用的 |
|
z****e 发帖数: 54598 | 28 3-5年吧
现在是刚开始
hadoop和spark有啥冲突的
hdfs这些还得用啊,spark又不管这些 |
|
B*****g 发帖数: 34098 | 29 大牛讲讲用卡桑取代hdfs的理由
interactive |
|
n******t 发帖数: 4406 | 30 这么搞法,和把HDFS全部跑在ram disk上比起来优势在哪里? |
|
z****e 发帖数: 54598 | 31 我就说嘛,老是做这种算术操作,迟早被人骂
猴屁股这种level就没那么容易忽悠
最好的方式干脆对比kmeans,用mllib做一次kmeans
然后对比全部跑在ram上的hdfs的kmeans
那个应该可以用scala做一定程度上的优化
就是coltzhao说的那些优化手段 |
|
z****e 发帖数: 54598 | 32 嗯,storm可以接收来自其他server的stream
spark还是主要针对persistence,现在也只针对hdfs
cassandra的支持都还只是刚刚起步 |
|
|
p*****2 发帖数: 21240 | 34
一个是算法,算法复杂了以后callback还是很难表达
另外一个是并发模式,node只有一个cluster模式,想解决的事情复杂了以后,感觉不
是太够用
我们最近做一个任务,把240G的数据从HDFS倒到cassandra,要求在10分钟之内,这样
一台机器基本不够用,必须上districuted,这样的话,无论akka还是spark都可以完成
这个任务,但是node就很难了,当然也不是不可能,不过估计要花我一些时间去做个
distributed app。
总之,Node的优势是做web service,或者startup/小项目的full stack。真正的大数
据的解决方案还是要在JVM上解决。 |
|
C********g 发帖数: 1548 | 35 我直觉它对硬件要求低,应该可以降低cost,并且可扩展性很强。 |
|
c****e 发帖数: 1453 | 36 Reports said Hadoop can reduce 30% cost on data warehouse. But don't
underestimate the operation barrier. |
|
|
|
g*********e 发帖数: 14401 | 39 还可以被spark用
但都是很intuitive的计算 |
|
z****e 发帖数: 54598 | 40 不过你们才40k个enrollments
这点数量,根本不需要什么erp
直接自己从php建起都能搞定 |
|
p*****2 发帖数: 21240 | 41 可以把mongo数据先导到hdfs
cassandra connnector 已经算容易用得了 相对来说 spark 还是太早期 |
|
z****e 发帖数: 54598 | 42 关键是yarn上弄ml很恶心
啥都要自己动手,很麻烦
而且hadoop sql不管是hive还是pig
都做得不三不四的
虽然说hdfs离真正的real time处理,还有很长一段距离
但是hive和pig也慢得可以了
mapreduce现在沦为一个batch工具
这里面显然有很大的提升空间
spark至少说rdd模型就把这个给做了
然后再谈sql, r和ml这些上层建筑
我觉得很make sense,把rdd看成一个cache就是了
分布式每层都做一个cache很正常
db,web/app server这些都有内嵌的cache
而mapreduce则没有
现在主流公司集体转向spark,都全力支持spark
固然有这样那样的问题,但是比起hadoop的mapreduce
感觉是要好很多了,spark上再搞sql这些,才是the way to go
apply |
|
z****e 发帖数: 54598 | 43 我对hadoop最大的抱怨就是hdfs跟mapreduce结合过于紧密
分开的话,其实没那么复杂
但是分开又不符合hadoop整个项目组的利益
又大又全几乎是所有项目的陷阱
往往到后面,你只用其中十分之一的东西
另外上spark真不用scala
用轮子不需要懂得怎么造轮子
你用spark,python都可以,为啥非要scala?
对scala唯一要求就是down下来,设置一下SCALA_HOME就可以了
如果觉得java没有shell的话
打开eclipse就可以当一个复杂化的shell用
python和scala都有shell |
|
m******e 发帖数: 201 | 44 一般有个job scheduler,比如很多用java的公司会用oozie,每天固定时间跑一次
Hadoop jobs。可以有任意多个job,互相之间也可以有依赖关系。跑完的结果可以存
HBase,RDBMS(MySQL,Oracle...,一般aggregated data),或者直接就是HDFS里。用
Java裸写Hadoop程序的已经越来越少。都是Hive/Pig生成的。还有很多ac-hoc query一
般就是用Hive。
/ |
|
w********m 发帖数: 1137 | 45 反正linux层和hdfs层上都要用python,干脆一口气都用python了。
另外,哪去找会scala的 |
|
z****e 发帖数: 54598 | 46 hdfs是jvm上的东西,你用python?
那个是jython吧
你们是c++转过来的程序员
因为hadoop流行,所以不得不上java
所以瞎搞,python慢死,根本不能在生产中用
spark你要是用python,那个是cinterpreter
可以让你比用java写慢上几十倍一点问题没有 |
|
w********m 发帖数: 1137 | 47 搞startup一开始就是一个连EC2的SSH
最少要搭个demo出来,骗骗投资人吧
要搞java的话,估计只有到印度新德里搬运烙印,明年十月上班,谁能撑那么久
现在大部分大学毕业生都懂点python,注意--不是CS专业的
startup顺便拉个人就可以开工
以前的storm,shark也不是不好,太复杂了,没人会用
databricks的人从Berkeley出来的,知道现状,于是把spark上面的python搞好,到处
用ipython notebook作介绍,大家一看都会,马上火爆了。
到hdfs上查个log,没人愿意用java现写个类库。所以,现在的大趋势是java做轮子,
python用轮子。 |
|
w********m 发帖数: 1137 | 48 不是hadoop和spark的committer,没兴趣关心jvm。用轮子的真不觉得轮子怎么做很重
要。
测试过scala和python在spark上的表现,没觉得你说的后者比前者慢几十倍。主要瓶颈
是RDD到hdfs的IO,这跟语言有什么关系。
另外,spark上怎么用groovy。 |
|
w********m 发帖数: 1137 | 49 反正linux层和hdfs层上都要用python,干脆一口气都用python了。
另外,哪去找会scala的 |
|
z****e 发帖数: 54598 | 50 hdfs是jvm上的东西,你用python?
那个是jython吧
你们是c++转过来的程序员
因为hadoop流行,所以不得不上java
所以瞎搞,python慢死,根本不能在生产中用
spark你要是用python,那个是cinterpreter
可以让你比用java写慢上几十倍一点问题没有 |
|