C********g 发帖数: 1548 | 1 【 以下文字转载自 Programming 讨论区 】
发信人: ChuangWang (太短), 信区: Programming
标 题: 可以建公司内部的HDFS吗?
发信站: BBS 未名空间站 (Mon Sep 29 11:02:40 2014, 美东)
比如,一个大学,40,000 enrollment.200 servers (99% are Solaris).可不可以建自
己内部的HDFS,运行所有的软件系统包括Oracle DB,ERP system, student system呢
?技术上可行吗?经济上可行吗? |
|
M****u 发帖数: 17708 | 2 hdf就是laminate
hdf比mdf重一点,所以是高密度板 |
|
w*****m 发帖数: 20421 | 3 不对,HDF是中间那层板子,会吸水,烂米和ENGINEERED中间都可能用到HDF
烂米表面是塑料 |
|
D*******a 发帖数: 3688 | 4 do you know what HDFS is for?
can you really run these stuff "Oracle DB,ERP system, student system" on
HDFS? |
|
h*d 发帖数: 214 | 5 我的理解是HDFS是应用层API,就像java IO一样,只能供特定系统使用(我就知道
hadoop)。LZ估计把HDFS误解成了OS level API可以让任何依赖文件系统的应用可以平
滑使用。如果不稍微看看paper,绝大部分人估计都会有同样的误解。 |
|
z****e 发帖数: 54598 | 6 你们学校有research cloud吗?
有的话,你直接在research cloud上爆nodes
然后就可以搞hdfs了,爆三个
一个做namenode,剩下两个做datanodes
然后就可以搞了
其实hdfs就是一个persistence的file system
没啥大不了的,把idea弄明白了,剩下细节其实不怎么重要
太多细节面试的人自己也记不住 |
|
z*******3 发帖数: 13709 | 7
你被忽悠了
理论上这种东西就是一个computing framework
跟persistence是啥,在哪,理论上是无关的
只不过hdfs做得比较大,所以用hdfs的人还是很多
但是不用其实也没啥大不了的,我用c*就用得好好的
关键就是一个接口的问题,hadoop毕竟是很成功的
但是并不代表这个东西就是必需的
随着nosql的数量的增加,以后会越来越多
最后估计会像当年jdbc一样,做成一个标准api
到时候用标准api就好了,当然也有可能像c++一样
永远都无法诞生一个像样的标准api,那这个对于开发人员来说就苦逼了 |
|
z*******3 发帖数: 13709 | 8 hadoop mature了吗?
需要定义mature
在我看来整个nosql market都很不mature
如果mature的话,那很多东西就不用做了
hdfs也许还ok,但是hbase的market就一塌糊涂了
c*理论上是跟hbase有一定交集,而非file system,比如hdfs
而c*是ap系统,ap可以tune成cp,但是反过来,cp要想tune成ap
就困难异常,我怀疑能不能做到,从这一点上说
c*的设计有天然的优势,天然就是cp系统的超集
hadoop是先行者,就像当年的ejb一样
但是jvm世界里后来居上反嗜的大有人在,比如spring
我同样看好vert.x干掉akka,以及c*干掉hbase
实际上这两个已经隐隐约约有这种迹象了,需要的只是时间
到时候现在做得一切系统都会被legacy化,到时候维护都是问题
然后一堆startup靠着这些新兴简单的技术来参与市场竞争
历史总是会这样重复
them. |
|
|
l**h 发帖数: 893 | 10 为啥HDFS和Hadoop要分开?
本来就是Hadoop的一部分啊 |
|
w**********3 发帖数: 20 | 11 请问High Density Fiberboard (HDF) Hardwood Flooring 和laminate floor有啥区别
,相同点好像都是压缩的复合板,一般都有锁扣,请问他们有什么不同吗?谢谢 |
|
b***o 发帖数: 13 | 12 我想用它的POI PACKAGE,但是好象读写微软WORD的HDF部分还没做好。
不知哪位高手用过这个?我需要把TEXT WITH FORMAT 用JAVA写到WORD里。 |
|
C********g 发帖数: 1548 | 13 比如,一个大学,40,000 enrollment.200 servers (99% are Solaris).可不可以建自
己内部的HDFS,运行所有的软件系统包括Oracle DB,ERP system, student system呢
?技术上可行吗?经济上可行吗? |
|
|
n******t 发帖数: 4406 | 15 错了,hdfs是烧钱的。
你要搞什么big data之类的应用么? |
|
C********g 发帖数: 1548 | 16 no.Is HDFS specifically for big data? |
|
z****e 发帖数: 54598 | 17 技术上没有问题
因为都在jvm上
所以不兼容的话,你自己可以动手实现,把它变兼容
当然这样要求你比较懂java才行
但是这种enrollment system非常不合适用file system啊
这个属于不能错的东西,大量需要transaction这些
学生选课冲突了,你得回滚才对
这个属于db的领域,不推荐用file system
用postgresql倒是可以
然后弄点j2ee啊,很容易搞
估计erp里面就有大量的j2ee components
当然你要用上hdfs也可以,放一些不重要的数据在file system里面
比如学生的爱好,log,甚至照片 |
|
z****e 发帖数: 54598 | 18 hdfs跟cloud结合起来就不烧钱了
天作之合
主要是cloud上爆nodes太容易
如果自己维护服务器,反而不太合适 |
|
g*******o 发帖数: 156 | 19 请教板上大牛,有什么比较好的方法可以在不同版本的Hadoop(HDFS)之间快速copy大量
文件?
先谢过! |
|
|
n*****3 发帖数: 1584 | 21 I think HBASE is about the same market share as C*, C* is rising though.
Hadoop/HDFS is mature, a lot of new tech will choose to live on top of them. |
|
J****R 发帖数: 373 | 22 最近琢磨用hdfs存储 hourly aggregation 数据,想用parquet作为存储格式(号称可
以优化存储和查询)。不知道版上有没有做过这方面的? |
|
c*****n 发帖数: 173 | 23 那位高人知道这种文件的具体特性,历史。
一共有85个bands?
另外ASTER data的后缀名也叫.hdf? |
|
z****e 发帖数: 54598 | 24 哪
oracle db的license什么用不起
是被插管吸血得还不够,就是因为利润太丰厚了
所以被盯上,然后几个阿三带着ppt过来忽悠各种产品
上workflow,上各种扯蛋得玩意,结果系统一天比一天难用
最后当年利润下滑,ceo引咎辞职,连同cio, hr的头几个一起滚蛋
我们底下干活的太清楚不过了,软件就是不能听这些阿三忽悠
都是骗子,还好当时core system是自己写的,所以保证core system不被忽悠
外围的那些系统后来全部砍掉,分公司全部卖掉,就专注地做core system
这样才算挺过来,没被插管吸血插死,这个有什么好争的
ibm websphere一个license可以卖¥32万,只能让一个cpu用一年
有几个公司这么大方能让人随便这样搞的?去ioe从本质上说就是钱的问题
都是这行的,我说的对不对,有几年经验的自然看得出来
至于你说得基于hadoop得数据库,什么意思?
hdfs是底层的file system,在此基础之上有hbase这一个数据库
而且还是cp系统,所以后来引入了ap系统的cassandra作为补充
你说基于hadoop的数据库,说实在话,我... 阅读全帖 |
|
z****e 发帖数: 54598 | 25 哪
oracle db的license什么用不起
是被插管吸血得还不够,就是因为利润太丰厚了
所以被盯上,然后几个阿三带着ppt过来忽悠各种产品
上workflow,上各种扯蛋得玩意,结果系统一天比一天难用
最后当年利润下滑,ceo引咎辞职,连同cio, hr的头几个一起滚蛋
我们底下干活的太清楚不过了,软件就是不能听这些阿三忽悠
都是骗子,还好当时core system是自己写的,所以保证core system不被忽悠
外围的那些系统后来全部砍掉,分公司全部卖掉,就专注地做core system
这样才算挺过来,没被插管吸血插死,这个有什么好争的
ibm websphere一个license可以卖¥32万,只能让一个cpu用一年
有几个公司这么大方能让人随便这样搞的?去ioe从本质上说就是钱的问题
都是这行的,我说的对不对,有几年经验的自然看得出来
至于你说得基于hadoop得数据库,什么意思?
hdfs是底层的file system,在此基础之上有hbase这一个数据库
而且还是cp系统,所以后来引入了ap系统的cassandra作为补充
你说基于hadoop的数据库,说实在话,我... 阅读全帖 |
|
a*****s 发帖数: 1121 | 26 回来查了一下没签NDA,应该没问题了。说是今天给通知,没收到说明是黄了。就是不
知道他家的打车费给不给reimburse,因为不太会用他家软件,给了100刀的coupon,要
求来的终点和回的起点时公司地址,自己设置的是公司地址,可是司机最后不知道怎么
给我稍微改了位置,结果就TMD charge了俺的信用卡。faint。
面的是体系结构engineer
还是老原则,哥没刷完题,就随便写过几道
电面是国人哥们,问的题目不难,属于leetcode的简单题一类的。记不得了。
onsite:
1. 国人哥们,典型的问了问以前以前做的什么,然后上题目,说一个未排序的整数数
组,找出所有的inversion,就是位置大但是value小的情况。例如:
9, 10, 1, 4, 100
那么应该返回4
先给了最白痴的解法,也就是n平方时间复杂度,然后主动提出可以优化,发现可能需
要排序,然后被提示说先试试merge sort,忘记了,想了一会,现自己动手写一个,没
写对,后来被提示说可以用递归,没时间了,把merge的顺序搞颠倒了,应该先二分逐
步递归,想反了。
2. 国人老板问了问behavior... 阅读全帖 |
|
F***Q 发帖数: 6599 | 27
我买的这些家俱中除了沙发的frame是实木的之外,其他的都不是。实木在高档的传统(
classic)风格家俱中使用的比较多,但很多现代风格(contemporary)的家俱多使用玻璃
、金属的元素。如果需要木质的板才,档次高一点的现代家俱多使用一种叫做HDF(
hardboard or high-density fiberboard)的材料,这种材料比ikea的那种很软的
particle board,或者胶合板(MDF, medium DF)硬度要高很多,而且不需要使用沾合剂
。比起实木,HDF更不容易变形,而且不会crack,表面均匀平整。一般处理后的HDF表
面都会上漆,在家俱外部的一般使用烤漆处理,提供类似金属或者玻璃风格的镜面反射
。烤漆后的家俱防水防潮,表面特别容易清洁,而且容易配色。由于现代风格家俱以简
洁为美,所以很多HDF连wood veneer也不会贴。
我买的餐桌据说有18年了,看上去表面跟新的似的。我自家的厨柜也是白色烤漆的HDF
,应该有超过20年的历史了,但看上去表面光洁如镜,没有变形,也没有任何用旧的痕
迹。 |
|
R***h 发帖数: 2589 | 28 打完一场游戏出来。。。
ILoveFlowers: 好地方,你非常的卡
IcWind2009:嗯 好卡啊
hhhhhhdf: 恩 怎么那么卡呢, 靠 ping 1268,怎么把net弄快点。。。
6dzerg: hdf, 你去下载个trojan就好了
ILoveFlowers:hdf, 你知道trojan吗?
hhhhhhdf: 不知道
IcWind2009:不知道
ILoveFlowers: 那你问问6dzerg就好了
6dzerg:嗯 trojan可以把你的网搞快点的
hhhhhhdf: 哦 我现在去下载
6dzerg private messaged IloveFlowers:哈哈哈哈
ILoveFlowers:哈哈哈 6dzerg大大的坏 大大的坏
Icwind2009: Trojan 不是木马吗?
6dzerg : hdf, 别去下载, 别去
hdf 不说话,估计去正在下载trojan
IloveFlowers: 哈哈 来不及了, 好地方很饥渴的去下载了
6dzerg:。。。。。
Icwind2009还在自言自语地说 Trojan不是木马吗?
过了大概1分钟,hdf回 |
|
c*****a 发帖数: 1638 | 29 除非他有处理这些文件内容的需求,否则end up在hdfs是很奇怪的事情。
hdfs当年设计出来就不是做他主贴里面这种事情的,HDFS的多数特性都是为了一个分部
计算系统做支持的file system提供的,单独作为file system挺弱。
LZ还是比较一下别的file system,你这种需求用hdfs+cassandra是很奇怪的。
S3对于LZ的需求可能会比较省事,但是会受制于带宽而且可能有思维上面的限制(很多
公司不愿意把文件放在外面)。除非他们已经开始用aws了,否则很难想象他们会为这
么个项目用aws。
LZ还是看看别的吧,虽然不很确定什么是最好的,但是HDFS和cassandra应该不适合你
这种情况,TCO会很高(除非你预见将来会有处理大数据文件的需求)。 |
|
z*******3 发帖数: 13709 | 30 spark是操作数据的工具
cassandra是储存数据的工具
两个用途并不存在很大的重合
所以互相需要,虽然支持hdfs
但是hdfs并不能满足所有人的需要
毕竟很多人是不用hdfs的呀
而且cassandra是ap系统,hdfs太原始,hbase又是cp系统
ap可以tune成ap,反过来就苦逼了
所以逐步都会换到cassandra上去
淘汰掉hdfs都有可能,你应该思考一下为什么c*逐步流行起来 |
|
z*******3 发帖数: 13709 | 31 ft
这真不是三言两语就能说得清楚的,只能非常泛泛地说一下
远远不够,对方深入问下去,你还是需要自己平常多看看it动态,积累一下
http://hadoop.apache.org/
hadoop现在演变成一堆产品的集合
这里面有file system,有db,有data warehouse,有business intelligence
有编程framework,还有framework的加强版,还有可视化工具,etc.
对方既然对比的是传统db,那重点显然是hdfs, hbase和cassandra这三个上
hdfs是file system,hadoop的核心之一
file system对比一般db,最大区别就是文件结构不那么一致
一般db存数据时候都经过了预处理,所以结构很清晰,有schema
而hdfs的数据则是文件,结构非常自由,没有或者有非常少的schema
这是最大的区别,然后在hdfs基础之上,有hbase这个数据库
hbase是cp系统,一般db是ac系统,区别就是cap理论,另外一个cassandra是ap系统
除了cap,hadoop还有各种分布式算法,分布式算法尤其需... 阅读全帖 |
|
d********w 发帖数: 363 | 32 硅谷最火的高科技创业公司都有哪些?
在硅谷大家非常热情的谈创业谈机会,我也通过自己的一些观察和积累,看到了不少最
近几年涌现的热门创业公司。我给大家一个列表,这个是华尔街网站的全世界创业公司
融资规模评选(http://graphics.wsj.com/billion-dollar-club/)。它本来的标题是billion startup club,我在去年国内讲座也分享过,不到一年的时间,截至到2015年1月17日,现在的排名和规模已经发生了很大的变化。首先,估值在10Billlon的达到了7家,而一年前一家都没有。其次,第一名是中国人家喻户晓的小米,第三,前20名中,绝大多数(8成在美国,在加州,在硅谷,在旧金山!)比如Uber, Airbnb, Dropbox, Pinterest. 第四 里面也有不少相似模式成功的,比如Flipkart就是印度市场的淘宝,Uber与Airbnb都是共享经济的范畴。所以大家还是可以在移动(Uber),大数据(Palantir),消费级互联网,通讯(Snapchat),支付(Square),O2O App里面寻找下大机会。这里面很多公司我都亲自面... 阅读全帖 |
|
d********w 发帖数: 363 | 33 http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖 |
|
d********w 发帖数: 363 | 34 http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖 |
|
v*****r 发帖数: 2325 | 35 Hadoop excels in handling raw, unstructured and complex data with vast
programming flexibility
at bottom is HDFS (file system), i can understand the programming
flexibility.
distributed nodes avoid moving data around. for big data environment,
distributed nodes are natural, put on a distributed file system with
parallel processing capability is natural approach.
still need to understand how HDFS is able to manage a larger set of files
than other files systems, say NTFS, ext...
http://en.wikipe... 阅读全帖 |
|
J****R 发帖数: 373 | 36 二爷说的是对的,hdfs的确是一坨。
以前觉得hbase跟c*差不多,是因为忘了把hbase加到hdfs上,所以其实是在一个node上
跑的结果。加上hdfs以后,我靠,慢了20倍都不止。。。。。
6 nodes
hbase +hdfs
use java connector to batch load 1.4M lines of data into hbase, batch size
is 1000, takes about 36 minutes.....
it used to take much shorter time to load same size of data into one node
hbase based on local file system.
sth must be wrong......... |
|
z****e 发帖数: 54598 | 37 fs尽量用hdfs
app一般都是用java写的
这两个凑在一起,就可以抹杀掉os的差异
os怎么搞都随便你
现在主要问题是hdfs兼容性还不是太强
hdfs跟win有各种不协调
app一般都做得挺好,内存管理已经不是大问题了
主要问题是硬盘上的文件管理
不管怎样,能解决一点是一点呢
还是换jvm吧,省太多事 |
|
z****e 发帖数: 54598 | 38 fs尽量用hdfs
app一般都是用java写的
这两个凑在一起,就可以抹杀掉os的差异
os怎么搞都随便你
现在主要问题是hdfs兼容性还不是太强
hdfs跟win有各种不协调
app一般都做得挺好,内存管理已经不是大问题了
主要问题是硬盘上的文件管理
不管怎样,能解决一点是一点呢
还是换jvm吧,省太多事 |
|
m********e 发帖数: 63 | 39 终于在电脑上可以输中文了,可能有的人因为我前面英文的帖子太长,没有仔细看。我
再来解释一下吧。
MapR的分布式文件系统是自己做的,和Google没有关系。我们的CTO在加入Google之前
就已经是做文件系统的专家,在Google GFS组做了2年多就决定自己出来创业把自己对
文件系统的想法做成产品。因为HDFS有很多局限性,比如不支持实时读写等。因为早期
的Hadoop HDFS是那些检索公司做出来给自己的检索系统用的,只要读,不需要实时读
写。而现在的需求是要求能提供实时读写的分布式文件系统以支持大数据的分布式数据
库,用来取代传统的数据库集群。
MapR重写了HDFS以后,把Hadoop的功能提高到enterprise software的质量的要求,这
就是为什么它的付费用户在这些所有Hadoop vendor 中最多的原因。因为对于
enterprise的软件,那些用户看重的是产品的质量和服务。
虽然前面xmj做了一些几个公司的分析,但那毕竟是他个人的观点,并不一定是业界专
家的观点。这里有一篇文章对每个Hadoop vendor都做了介绍,并且比较全面和客观。
有兴趣可以读... 阅读全帖 |
|
m********e 发帖数: 63 | 40 终于在电脑上可以输中文了,可能有的人因为我前面英文的帖子太长,没有仔细看。我
再来解释一下吧。
MapR的分布式文件系统是自己做的,和Google没有关系。我们的CTO在加入Google之前
就已经是做文件系统的专家,在Google GFS组做了2年多就决定自己出来创业把自己对
文件系统的想法做成产品。因为HDFS有很多局限性,比如不支持实时读写等。因为早期
的Hadoop HDFS是那些检索公司做出来给自己的检索系统用的,只要读,不需要实时读
写。而现在的需求是要求能提供实时读写的分布式文件系统以支持大数据的分布式数据
库,用来取代传统的数据库集群。
MapR重写了HDFS以后,把Hadoop的功能提高到enterprise software的质量的要求,这
就是为什么它的付费用户在这些所有Hadoop vendor 中最多的原因。因为对于
enterprise的软件,那些用户看重的是产品的质量和服务。
虽然前面xmj做了一些几个公司的分析,但那毕竟是他个人的观点,并不一定是业界专
家的观点。这里有一篇文章对每个Hadoop vendor都做了介绍,并且比较全面和客观。
有兴趣可以读... 阅读全帖 |
|
|
a*****s 发帖数: 1121 | 42 牛肉姐也是做体系结构的?牛肉姐以直白著称,能聊聊你怎么准备的么?很少见你上面
经,回馈本版啊。
有些知识你做深了,必然就面窄了。
本来就没准备。存HDFS也不是不可以,而且也不是没有大公司用。
前段手机的数据需要个kafka的东西来aggregate,然后写给HDFS,之后给MR或是SPARK
去处理,结果存HDFS,他又没给我latency的SLA requirement,哥也是知道redis啥的
,很了不起么?
说白了就是大家投缘不投缘,你没说的我心坎上,对不起,不要你。门槛而已啦。 |
|
|
c***d 发帖数: 996 | 44 先看个video:
http://www.youtube.com/watch?v=hEqQMLSXQlY
他主持的一个系统,replication策略我觉得和hdfs有重复, 我就问为什么不直接架在
hdfs上作。这位大哥大概是这么解释的:
hdfs的metadata management其实是single point of failure,确实可以用backup
namenode来改善,但这不是问题的根本。问题的根本是distributed storage的
replication information不应该用lookup 来解决,而应该用比较robust的hash
function。那会不会不elastic呢? 确实有这个问题,这个问题的关键在于,系统本身
要有一个作elastic logic的controller, 随时得到整个系统的信息。 当有node增加进
来或者fail掉,elastic logic controller会根据这个当前情况计算出理想的
distribution, 并开始移动block。移动block是copy and delete, 系统在近opti... 阅读全帖 |
|
z*******3 发帖数: 13709 | 45 你傻阿
google的核心系统是97年写的
97年有个球java,那个时候java还在写applet
压根没有到今天这个地步
后来google自己c++也写不下去了,就开始搞python
python到今天也快下不下去了,就开始java了,java进入google是很后面的事
实际上google对于java并不差,james gosling和lars bak,一个java之父
一个hotspot之父,在sun被oracle吞并之后,都被google挖走了
sun和google还有yahoo都是stanford系的,sun全称就是斯坦福大学网络
互相只见挖来挖去很正常,google成功的那个广告就是sun的斯密特过去搞的
你说google对java会是什么态度?现在google搞的dart
几乎就是一个simplified java,android也全是java
google本身也是jcp成员,只有傻逼才会认为google是java的敌人
实际上google对java没少出力
但是话说回来,google现在招很多人进去给他们维护97年写的系统
用c++符合google的利益,怎么说呢?
... 阅读全帖 |
|
w***g 发帖数: 5958 | 46 请贴benchmark结果。感觉C*是强在scalability。机器多了以后HBase的
头节点会成为瓶颈,C*没这个问题。还有就是HBase中间夹了一层HDFS,
比如冗余机制就是靠HDFS实现的。比如C*要写两个copy,客户端直接
定位两台机器,写果去就完了。HBase要写两个copy,其实在到region
server之前都是1个copy,然后写入HDFS的时候才变成两个。中间多隔
一台机器,还会牵扯到Hadoop的namenode。
如果你的app就那么点数据,其实应该和MySQL比,应该比C*和Hbase都强。 |
|
w***g 发帖数: 5958 | 47 hdfs本来备用做hadoop的存储层,用来做大块文件读写。
如果每次从hdfs读写几百兆的块,最近几个版本的Hadoop性能是没啥问题的。
(早期也很屎,后来改进了。)
在hdfs上做HBase本来就是一个很傻B的设计, 本来也不是用来做实时应用的。
后来用的人多了,用的范围大了,
engineering投入进去,性能补救了一点上去而已。但别人C*很自然就能做到
的性能,在HBase上就成了challenge。 |
|
w***g 发帖数: 5958 | 48 standalone是用来在笔记本上跑toy example用的。正经机群上大规模数据还是得走
HDFS。Hadoop也有不用HDFS的standalone模式。就是上了机群,还是可以指定file://.
..绕过HDFS读本地文件系统。 |
|
z*******3 发帖数: 13709 | 49 那就这样吧
先把vert.x搞清楚
搞明白了vert.x,你就至少弄明白了async和thread pool
然后进阶,把streaming给搞明白
这个vert.x中也有
然后琢磨清楚vert.x是如何对付udp, tcp, http, websocket这几块的
话说websocket真垃圾,用的是http 1.1的协议,http2比1强太多
2就适合用来搞streaming了
这就是网络,网络不需要特别底层,但是从tcp,udp/ip以上就需要你最好弄清楚
然后把web service大概弄弄,会用到json和xml
这是网络,切记,结合vert.x去搞,看看vert.x是怎么搞的
vert.x的文档例子都很全面,遇到不懂的,查,问,发邮件问你以前大学的叫兽
想办法搞懂
这是网络部分
然后数据部分,这个没那么容易
先把paxos和cap搞懂,各种trade off琢磨清楚
paxos太理论,而且故弄玄虚,搞懂raft,想明白为什么raft那样搞
这个比较实际,然后弄明白cassandra以及hdfs,弄清楚这两个跟一般的rdbms有什么区别
区别点从join和transactio... 阅读全帖 |
|
z*******3 发帖数: 13709 | 50 搞hadoop,要想不被程序员,咨询公司所绑架
最好就把java搞懂,否则,就会给那些乱七八糟的咨询公司送钱
那些咨询公司就喜欢骗这种钱,因为你不懂,所以你只能掏钱
但是这东西要是rocket science,俺就不说啥了
问题是不是呀,一个学arts的本科生,读一个学期,都能a的东西
你一老中grad毕业,搞不定这个?哎,那你说你搞的那些高等数学有啥用?
高数难度远大于这个,搞懂这些不仅对自身工作有利
你老问别人,次数多了,人家也烦,而且也影响你自身的工作效率
老板会觉得你怎么老是搞不定?为什么隔壁那个阿三能搞定?
我发现是个阿三都懂java,无论它学啥
你觉得甘心在这种大一本科生都能搞定的东西上落后于阿三么?
你想想你自己读个物理或者统计的phd,多苦逼,那些概念多难懂?
java多低级的一个东西,最后因为java你落后于阿三,最后还被阿三欺负
你甘心么?
就像如何从各个数据库之间搬运数据,这个其实很容易,只要是java,就有jdbc
jdbc和odbc有一个接口,然后你自己写个程序
想放到哪就放到哪,本质上是一样的,可以以不变应万变,java从来都是这样
以后管他什么数据库,都是... 阅读全帖 |
|