由买买提看人间百态

topics

全部话题 - 话题: hdfs
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
w*r
发帖数: 2421
1
if your file is not in hdfs, it is better to copy the file to hdfs first,
the load data local command can only work if the file is visible by
hiveserver2 process, which in a lot cases you cannot touch that server.
therefore, hdfs put the file first is usually a better way.
p*******2
发帖数: 56
2
来自主题: _pennystock版 - 小赌neph
俺前天进了[email protected],准备捂到6月15号,赌结果。它有两个pending,一个随时给结果
,另一个要到12号或者15号。只要有一个get approved,股价就会再翻个翻,有两个
approved当然会更高了。如果都failed,股价就会又回到1毛。风险就这些,想玩的可
以适当关注,选择时机进入。
详情见下面:
1.) Nephros (OTC:NEPH): Price - $0.14, Market Cap - $5M, Revenue (ttm) - $1.
7M, Net Loss - ($5.4M)
The Nephros hemodiafiltration (HDF) system is designed to improve the
quality of life for End-Stage Renal Disease (ESRD) patients while addressing
the critical financial and clinical needs of the care provider. The Nephros
HDF system remove... 阅读全帖
r*****n
发帖数: 4844
3
前言
你是否觉得自己从学校毕业的时候只做过小玩具一样的程序?走入职场后哪怕没有什么
经验也可以把以下这些课外练习走一遍(朋友的抱怨:学校课程总是从理论出发,作业
项目都看不出有什么实际作用,不如从工作中的需求出发)
建议:
不要乱买书,不要乱追新技术新名词,基础的东西经过很长时间积累而且还会在未来至
少10年通用。
回顾一下历史,看看历史上时间线上技术的发展,你才能明白明天会是什么样。
一定要动手,例子不管多么简单,建议至少自己手敲一遍看看是否理解了里头的细枝末
节。
一定要学会思考,思考为什么要这样,而不是那样。还要举一反三地思考。
注:你也许会很奇怪为什么下面的东西很偏Unix/Linux,这是因为我觉得Windows下的
编程可能会在未来很没有前途,原因如下:
现在的用户界面几乎被两个东西主宰了,1)Web,2)移动设备iOS或Android。Windows
的图形界面不吃香了。
越来越多的企业在用成本低性能高的Linux和各种开源技术来构架其系统,Windows的成
本太高了。
微软的东西变得太快了,很不持久,他们完全是在玩弄程序员。详情参见《Windows编
程革命史》
所以... 阅读全帖
j******s
发帖数: 48
4
来自主题: JobHunting版 - 最近面的两道题,求解答
Q1. Bin-String Distance
You are only given strings made of by '1's and '0's (no empty strings),
such as "1", "101", "0000". Let's call them bin-strings.
The term "strange-distance" of two bin-strings is defined as follows:
Rip off their common prefix, the "strange-distance" is therefore sum
of length of remaining strings. E.g., "111001001" and "1110101001"
after taking off common prefix "1110", the remains are "01001" and
"101001". So their strange distance is 11.
Your program input will... 阅读全帖
n******r
发帖数: 869
5
来自主题: JobHunting版 - 程序员技术练级攻略
贡献好文:
http://coolshell.cn/articles/4990.html
月光博客6月12日发表了《写给新手程序员的一封信》,翻译自《An open letter to
those who want to start programming》,我的朋友(他在本站的id是Mailper)告诉
我,他希望在酷壳上看到一篇更具操作性的文章。因为他也是喜欢编程和技术的家伙,
于是,我让他把他的一些学习Python和Web编程的一些点滴总结一下。于是他给我发来
了一些他的心得和经历,我在把他的心得做了不多的增改,并根据我的经历增加了“进
阶”一节。这是一篇由新手和我这个老家伙根据我们的经历完成的文章。
我的这个朋友把这篇文章取名叫Build Your Programming Technical Skills,我实在
不知道用中文怎么翻译,但我在写的过程中,我觉得这很像一个打网游做任务升级的一
个过程,所以取名叫“技术练级攻略”,题目有点大,呵呵,这个标题纯粹是为了好玩
。这里仅仅是在分享Mailper和我个人的学习经历。(注:省去了我作为一个初学者曾
经学习过的一些技术(今天明显... 阅读全帖
x*j
发帖数: 271
6
俺做bigdata5年多,这三家公司都研究过,简单说说供参考。
Cloudera成立早,有很多yahoo的老人在,骗了很多钱,目前以做service为主,比较领
先的是它的management tool,对hadoop的manage比其他的package要强。背后主要的支
持者是oracle和teradata,前段时间intel投资了。目前来看比较牛。他们自己搞了
impala,我的感觉有点不伦不类的。
Hortonworks是yahoo spinoff的,技术上来说,看看hadoop早年的code大概也知道是个
什么样水平。HDFS真心还不错,Mapreduce一般般了就。里面有很多以前做pig的人,目
前的重点则是hive。目前看没什么大优势。他家后台是微软,hadoop on windows的各
种改动基本上都是他们做的,软软给了很多钱。
Mapr这个东西,楼主先不要用google capital去误导别人。Mapr的CTO以前在google
GFS team干过很久。Google computing engine 最开始的时候也只支持MapR。MapR的后
台就是google。... 阅读全帖
z****e
发帖数: 54598
7
make sense
google支持mapr也说得过去了
反正google那些东西不是直接拷贝到各个数据中心卖的产品
也不需要关注兼容性,自己能跑就行了
不过google自己不是有gfs么?为啥要重写hdfs?
mapr自己实现一遍gfs/hdfs有啥好处?
为了接口看上去跟hadoop统一,然后能兼容hadoop其他产品?
z****e
发帖数: 54598
8
嗯……那段英语说得有些官方样板文的味道
象阿三的ppt,总之各种理由说我们产品最好
这个其实也没啥错,对外宣传总不能说自己产品不好吧?
他的观点我并不完全认同,就像他说的用c++重构了整个hdfs
我就不以为然,因为这样带来的兼容性问题很是讨厌
很多插管吸血的公司都是靠这种方式来忽悠骗钱
垮平台的代码虽然运行起来可能会牺牲一部分效率
但是总体而言,为了这一点效率上的提升去牺牲跨平台特性
多少作茧自缚,这对于资本家来说是有利的,因为这就像一个陷阱
不是你造的,你一脚踩进去,要想拔出来,就会特别痛苦,一般都会被放血
我一般能用apache就用apache的东西,其他cloudera之类的
这种有vendor lockin可能的,一概不用,换句话说,我不认为软件应该象他说的那样写
相反,应该尽可能多把问题解决掉,而不是埋了个地雷给后人去解决
一句话,我就认为应该象yahoo那拨人搞hadoop那样写代码
其实我前面关心的也就是这个问题,就在问是不是兼容性比较糟糕?
但是这是编程哲学问题,我个人觉得他解释的还是比较make sense的
real time的io也有很多种处理方式,并不意味着一... 阅读全帖
a***n
发帖数: 623
9
大家都在探讨我觉得没必要blame谁,xmj的帖子也有很多干货,lz在版上提供工作机会
也很赞。
我的了解:MapR最大的优势就在于他们的文件系统当初比HDFS要nb很多,但是我的担心
也在这里:这么多年过去了,MapR文件系统相对HDFS和的优势会不会逐年下降?
Cloudera据我所知还是有很多非开源的东西的,比如Impala,类似Google Dremel的东
西,Apache Drill起码现在还是无法与之相提并论,MapR有没有类似的column DB?
另外欢迎lz和xmj来我的俱乐部探讨这块东西:
http://www.mitbbs.com/club_bbsdoc2/bayareacsyuujintyou_0.html
x*j
发帖数: 271
10
俺做bigdata5年多,这三家公司都研究过,简单说说供参考。
Cloudera成立早,有很多yahoo的老人在,骗了很多钱,目前以做service为主,比较领
先的是它的management tool,对hadoop的manage比其他的package要强。背后主要的支
持者是oracle和teradata,前段时间intel投资了。目前来看比较牛。他们自己搞了
impala,我的感觉有点不伦不类的。
Hortonworks是yahoo spinoff的,技术上来说,看看hadoop早年的code大概也知道是个
什么样水平。HDFS真心还不错,Mapreduce一般般了就。里面有很多以前做pig的人,目
前的重点则是hive。目前看没什么大优势。他家后台是微软,hadoop on windows的各
种改动基本上都是他们做的,软软给了很多钱。
Mapr这个东西,楼主先不要用google capital去误导别人。Mapr的CTO以前在google
GFS team干过很久。Google computing engine 最开始的时候也只支持MapR。MapR的后
台就是google。... 阅读全帖
z****e
发帖数: 54598
11
make sense
google支持mapr也说得过去了
反正google那些东西不是直接拷贝到各个数据中心卖的产品
也不需要关注兼容性,自己能跑就行了
不过google自己不是有gfs么?为啥要重写hdfs?
mapr自己实现一遍gfs/hdfs有啥好处?
为了接口看上去跟hadoop统一,然后能兼容hadoop其他产品?
z****e
发帖数: 54598
12
嗯……那段英语说得有些官方样板文的味道
象阿三的ppt,总之各种理由说我们产品最好
这个其实也没啥错,对外宣传总不能说自己产品不好吧?
他的观点我并不完全认同,就像他说的用c++重构了整个hdfs
我就不以为然,因为这样带来的兼容性问题很是讨厌
很多插管吸血的公司都是靠这种方式来忽悠骗钱
垮平台的代码虽然运行起来可能会牺牲一部分效率
但是总体而言,为了这一点效率上的提升去牺牲跨平台特性
多少作茧自缚,这对于资本家来说是有利的,因为这就像一个陷阱
不是你造的,你一脚踩进去,要想拔出来,就会特别痛苦,一般都会被放血
我一般能用apache就用apache的东西,其他cloudera之类的
这种有vendor lockin可能的,一概不用,换句话说,我不认为软件应该象他说的那样写
相反,应该尽可能多把问题解决掉,而不是埋了个地雷给后人去解决
一句话,我就认为应该象yahoo那拨人搞hadoop那样写代码
其实我前面关心的也就是这个问题,就在问是不是兼容性比较糟糕?
但是这是编程哲学问题,我个人觉得他解释的还是比较make sense的
real time的io也有很多种处理方式,并不意味着一... 阅读全帖
a***n
发帖数: 623
13
大家都在探讨我觉得没必要blame谁,xmj的帖子也有很多干货,lz在版上提供工作机会
也很赞。
我的了解:MapR最大的优势就在于他们的文件系统当初比HDFS要nb很多,但是我的担心
也在这里:这么多年过去了,MapR文件系统相对HDFS和的优势会不会逐年下降?
Cloudera据我所知还是有很多非开源的东西的,比如Impala,类似Google Dremel的东
西,Apache Drill起码现在还是无法与之相提并论,MapR有没有类似的column DB?
另外欢迎lz和xmj来我的俱乐部探讨这块东西:
http://www.mitbbs.com/club_bbsdoc2/bayareacsyuujintyou_0.html
z*******3
发帖数: 13709
14
来自主题: JobHunting版 - 请教一些面试口水题
你光说可以这样做,效率高,那这像是文科生说的
人家肯定不买帐,而且严格说来还是有点问题
传统db一样可以做到分布式
而且db查起来还更快,因为db的数据本身更为工整,index也多
integration做得好的话,找起来快多了,但是一般db写起来消耗资源比较多
而且db里面有大量用户定义的transaction,容灾处理机制write ahead log这些
据说这些东西占去了日常90%的工作,这样做的结果就是一般db要错,数据要丢失
不太容易,所以db中的数据都非常精准
但是代价就是写起来消耗资源就多,要经过各种处理,数据要层层包装解包装等等
而且不是说做不到分布式,而是做到比较麻烦
因为要保证节点的数据是consistent的,有大量工作要自己去实现
hdfs直接dump文件到硬盘上,然后replica,除了namenode以外,不搞transaction
也不负责灾难备份,相比之下写的时候快多了
适合web这种大量垃圾数据同时涌入时候用
读的时候,node如果fail掉的话,hdfs有checksum
所以少量的nodes挂掉,不影响系统本身的健康
chaos monkey
d********w
发帖数: 363
15
来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks,不过也有
不少国人加入了,都是未来的希望啊。
# Spark
Spark今年大放溢彩,Spark简单说就是内存计算(或者迭代式计算,DAG计算,流式计算
)框架,
MapReduce因效率低下大家经常嘲笑, Spark号称性能超Hadoop百倍,算法实现... 阅读全帖
d*******8
发帖数: 23
16
来自主题: JobHunting版 - 国内找北美社招职位面试总结
版中大多数面经都是针对北美new graduate的, 在此贡献一下本人国内找北美工作的一
些经验吧, 也算是答谢mitbbs上分享面经的朋友对我的帮助. 更希望攒攒人品能够抽到
h1b签证 :)
[背景]
国内4年工作经验. 硕士毕业后一直在某做存储的外企工作.
14年7月份开始有出国打算并开始准备.
[准备]
在工作之余每天坚持至少刷3~4道算法题, 并关注各个公司的blog及github上的开源项
目.
1. 算法
Leetcode自然不必说, 必刷. 先是用了将近两个月的时间把leetcode刷了1.5遍, 然
后每次电面和onsite面之前挑一些觉得做得不好的题再刷.

其次就是看geeksforgeeks上题. 这是个老印host的网站, 但是上面的题目分类明晰
,有很多分类底下的题目非常好, 比如DP (印象最深的就是m个鸡蛋n层楼测在哪层楼鸡
蛋会被摔碎的问题)和graph (印象最深的就是单源/多源最短/最长路径和欧拉环). 每
天看一下还是能学到不少新鲜的知识的.

其他就没有了, career up和glass door也断断续续看了一些, ... 阅读全帖
d*******8
发帖数: 23
17
来自主题: JobHunting版 - 国内找北美社招职位面试总结
版中大多数面经都是针对北美new graduate的, 在此贡献一下本人国内找北美工作的一
些经验吧, 也算是答谢mitbbs上分享面经的朋友对我的帮助. 更希望攒攒人品能够抽到
h1b签证 :)
[背景]
国内4年工作经验. 硕士毕业后一直在某做存储的外企工作.
14年7月份开始有出国打算并开始准备.
[准备]
在工作之余每天坚持至少刷3~4道算法题, 并关注各个公司的blog及github上的开源项
目.
1. 算法
Leetcode自然不必说, 必刷. 先是用了将近两个月的时间把leetcode刷了1.5遍, 然
后每次电面和onsite面之前挑一些觉得做得不好的题再刷.

其次就是看geeksforgeeks上题. 这是个老印host的网站, 但是上面的题目分类明晰
,有很多分类底下的题目非常好, 比如DP (印象最深的就是m个鸡蛋n层楼测在哪层楼鸡
蛋会被摔碎的问题)和graph (印象最深的就是单源/多源最短/最长路径和欧拉环). 每
天看一下还是能学到不少新鲜的知识的.

其他就没有了, career up和glass door也断断续续看了一些, ... 阅读全帖
w********m
发帖数: 1137
18
这种题你要不停的问问题。
你首先要问这些log是放在什么地方。hdfs,或者数据库,或者S3。第二你要问他这些
query要real-time, 还是batch操作。
要是hdfs,可能是how to design a key-value store, how to implement data
streaming
要是数据库,可能是how to design memcached
反正玩法很多。
z****e
发帖数: 54598
19

你搞过ds的话,不需要学习scala,把api熟悉一下
ds的问题主要是api level的,多数都是理论
只要你懂cassandra, hdfs这些,你应该比其他人,比如用python的,用r的
有更多的机会被找ds的hr骚扰,但是目前应该整个市场行情一般
不宜把鸡蛋全放在这个篮子里
mongodb流行是因为跟db最像,大多数人熟悉了db之后,就不像用变化特别大的东西
但是我觉得cassandra是一个极端,跟db极为不像
所以学习cassandra也有必要,而且cassandra和hdfs也是ds部分用得多
所以如果你想找回ds那条路的话,这两个也是有帮助的
就是如果你写上去说你懂这两个,别人就更相信你懂ds
当然spark对于ds帮助最大
相比之下spring和hibernate倒未必帮助那么大
r******y
发帖数: 21
20
来自主题: JobHunting版 - Cloudera 面经 (电面 + onsite)
这是楼主第二次onsite他家,希望这次能有好结果吧。
面的组是内部维护hadoop和数据的组。
第一次电面,hiring manager,纯聊天,简历。谈得还不错。于是就有了接下来的下一
步。
第二次电面,依然是问简历,相关工作经历。主要问了问对开源项目的理解,尤其是他
家的impala。还有avro, thrift, nifi, hbase也都问了一些。
下一步是做了个oa,codility的oa,不难,三题,第三题时间不够,第二题有个小bug
,修了以后就提交了。
接下来是onsite,每轮一个小时。
onsite第一面,是个很资深的engineer,还是详细问简历,之前做的project的
architecture,要在白板上画出来。最后题问题的时候问cloudera在这方面也是不是这
样处理的,对方说是很相似的设计。
onsite第二面,大组的manager。详细聊聊hdfs,以及实时data ingestion进hdfs这方
面的设计。主要是考察系统设计以及对开源项目的了解。
onsite第三面,一个刚从ops转到dev的engineer。主要问linux的方方面面,我坦承... 阅读全帖
b**********5
发帖数: 7881
21
来自主题: JobHunting版 - MLGB 的
一个店面, 准备热热身的。 一个印度男经理, 看linkedin, 好像从印度工作然后
过来。。 我对印度口音还行, 但这个男的, 口音特别中, 死气无力的。。。 在那
里呻吟。。。
1) 上来问HBase, cassandra的区别。 然后我开始说一通architectural的区别。
HBase是master slave architecture啊, Master管着一群region server, partition
的infomation metatable都在master里面。 HBase需要HDFS啊, HBase的single point
failure不是因为masterserver,我们以前其实用zookeper来管二个HBase
masterserver啊。 HBase的single point failure 其实是因为HDFS single namenode
啊。。。 Cassandra其实就是像P2P一样, 一个consistent hash ring啊, 然后data
key的本身有partition key, partition key来决定放哪个... 阅读全帖
s******c
发帖数: 1920
22
来自主题: JobHunting版 - MLGB 的
这得是招team lead的题目了吧。
第一题你说用zk来管hbase的master来实现HA,但single point of failure在hdfs nn
这里说不通啊。hdfs也有zk来做nn的HA的啊。
第二题就是 mapreduce的wordcount 变形啊,不用hbase的


partition
point
namenode
data
l******n
发帖数: 9344
23
来自主题: JobHunting版 - 【南加内推】Big data SWE
地点在LA, EL Segundo
最好是local或者可以relocate的,有兴趣的请把resume发到[email protected]/* */
现在希望能在明年一月份开始工作,所以有合适的人选可以很快又结果。
Major Responsibilities:
Design, code, and test enhancements for stream analytics software. Plan and
manage engineering tasks within projects,perform related requirements
analysis, performance analysis, and problem analysis. As needed, establish
technical direction for feature development, and with SMEs develop new
product functionalities.
The required skills for this position inclu... 阅读全帖

发帖数: 1
24
我上个月中旬才开始找工作,到现在投了不到100个的样子吧。
QUALIFICATIONS
 Hands-on experience in full-stack development
 Strong knowledge of object-oriented programming and distributed system
 Extensive development experience in Linux enviornment
 Team player, self-motivated and excellent communication skills
 Critical thinking, hardworking and a fast learner
SKILLS
 Languages: Java, C, PHP, Shell Script, SQL, Scala, JavaScript, HTML, CSS
 Tools: Eclipse, Maven, Subversion, Junit, Camel, TibcoEMS, Hadoop, HBase,
Spa... 阅读全帖
F***Q
发帖数: 6599
25
来自主题: Living版 - 关于橱柜, 该相信谁的说法?

题,
吗?
首先,实木或者木纹的橱柜在传统风格的厨房中使用多一些,但如果屋子是现代风格的
,木纹反而显得老气和繁琐。现代风格的厨房,上等的橱柜是用high density
fiberboard (HDF)
,或者质量比较好的MDF,然后外面上烤漆。HDF质地均匀,不会像实木一样开裂或者冷
热变形。烤漆表面很容易清洗,防潮,而且颜色光泽更容易与其他家具匹配
n***j
发帖数: 1747
26
再说工程木也分好几种
我见过两种:中间是HDF的和中间是wood layer的
中间是HDF的,和蓝米的区别就是表面和底面那两层,一个事塑料皮,一个是木板层
F********n
发帖数: 244
27
来自主题: NextGeneration版 - 中部怎么找保姆?
Sorry for the English input.
I remember you are a faculty member. If this is the case, or you are
relocated to a college town, I would recommend you hiring college students,
the ones majoring in early child education, or human development and family
studies (HDFS) seem to be the best.
I was in the same situation, at first, we tried to hire live-in Chinese
nannies from a nearby city (2hr drive). We posted ads at Chinese grocery
stores, and a lot of people applied for the job. We paid extra, but w... 阅读全帖
l******n
发帖数: 9344
28
来自主题: LosAngeles版 - 【南加内推】Big data SWE (转载)
【 以下文字转载自 JobHunting 讨论区 】
发信人: longtian (有人的地方,就有江湖), 信区: JobHunting
标 题: 【南加内推】Big data SWE
发信站: BBS 未名空间站 (Thu Dec 1 01:36:16 2016, 美东)
地点在LA, EL Segundo
最好是local或者可以relocate的,有兴趣的请把resume发到[email protected]/* */
现在希望能在明年一月份开始工作,所以有合适的人选可以很快又结果。
Major Responsibilities:
Design, code, and test enhancements for stream analytics software. Plan and
manage engineering tasks within projects,perform related requirements
analysis, performance analysis, and problem analysis. As needed, establis... 阅读全帖
I****d
发帖数: 185
29
来自主题: E-Sports版 - 不容易啊
和hdf zvt, 手速不够,连队都编不清楚,微操就是一坨,被他用ws虐了无数盘之后终于在
上一把把
他A死了(菜鸟间的比赛很欢乐).
啊啊,我现在越想心情越好,决定发帖留念(hdf表怪我,毕竟我也送上门让你虐了好多次;
而且偶对
ws怨念太深~).
开局二话不说先裸三,三基地放在三矿.然后发现t堵口裸双,我毅然决然地又裸了四矿.
t压了一波,我俩换了点兵,然后他开3矿,我一想不行啊,每次都是这样输的,3矿满攻防的
t就把5矿
的我A死了.我决定以数量来弥补,就又裸了5,6矿.
爆了一波飞龙和口水,在3矿没好之前一冲,竟然打掉了!(虽然我伤亡较大,兵都死光了)
大喜之下,
我又裸了2个矿,然后就憋兵... t3矿一好,我就一A,8矿打两矿,那个爽啊,zvt从来没有
这么扬眉吐
气过.
所以打ws就要奔放,没有最奔放,还要更奔放. 两倍经济打不赢就3倍,还打不赢就4倍,总
能A死他
lol
好吧,我承认我得意了xD 菜鸟晒街,高手尽管喷表客气~
w**z
发帖数: 8232
30
来自主题: Java版 - BIgData对job market的影响?
You can buy Datastax enterprise version and it comes with Hadoop and solr
integration. We haven't tried yet since we run hadoop off scribe log data.
Cassandra doesn't use HDFS as its file system, so you will have to transfer
data in/our of Cassandra. I am not expert on Hadoop, so don't want to give
you wrong information. But as I know, the biggest advantage of HBase is that
Hbase runs on on HDFS, so Hadoop integration is much easier.

it
z****e
发帖数: 54598
31
来自主题: Java版 - Java 做网站
网站都交给php就好了
剩下的主要是hadoop
楼主如果打算用hadoop,那么我说的这些比如hbase它哪怕是重新学
成本都会低于去用mongodb那些
搞big data,这些东西是绕不开的
而且折腾db也不简单,我觉得不比搞hdfs这些简单,对于一窍不通的人来说
db有transaction,有lock,要rollback这些,烦
hdfs就是一个file system,很低级,很容易搞的
cassandra也没啥fancy的东西
剩下分布式,那搞big data总得搞点分布式吧?要不然搞啥big data
而db在分布式上又弱得一塌糊涂,所以我觉得db可以不用了
m******h
发帖数: 1059
32
就语言本身而言Java和c#没法比,貌似类似,其实c#在各个方面都要成熟完善很多,优
美很多。说实话我觉得Java就是一个屌丝语言,半成品。可是这种风格正好适合open
source,不追求完美只追求开发快捷。所以Java拥有如此强大的用户群支持,明显比c#
强很多。除此之外Java唯一的优势就是跨平台。其实我看mono做得也很好,可惜还是很
小众。
再说big data。听到这个词我真的觉得很烦,遇到大量数据的时候能先想想有必要那么
大吗?有多少冗余 多少浪费?是不是json里面变量名合括号占了80%的空间?或者更夸
张在用XML ?不要嘲笑我,我知道屌丝们不care,你们有Hadoop 有hdfs 有pig 有
amazon ec2… 有无穷无尽的资源,要么是老板付钱,要么还是停留在假设阶段,无论
如何你们不care。
我在amazon干了一年,发现认为Java最优 spring 万能 Hadoop无敌 所以毫无顾忌的去
瞎折腾的屌丝太多,我们可以把100g的数据用最浪费的方式存成1t,我们可以忍耐pig
在几百个node上简单处理不到1t的json要花几个小时,我们愿意花50%以... 阅读全帖
m******h
发帖数: 1059
33
就语言本身而言Java和c#没法比,貌似类似,其实c#在各个方面都要成熟完善很多,优
美很多。说实话我觉得Java就是一个屌丝语言,半成品。可是这种风格正好适合open
source,不追求完美只追求开发快捷。所以Java拥有如此强大的用户群支持,明显比c#
强很多。除此之外Java唯一的优势就是跨平台。其实我看mono做得也很好,可惜还是很
小众。
再说big data。听到这个词我真的觉得很烦,遇到大量数据的时候能先想想有必要那么
大吗?有多少冗余 多少浪费?是不是json里面变量名合括号占了80%的空间?或者更夸
张在用XML ?不要嘲笑我,我知道屌丝们不care,你们有Hadoop 有hdfs 有pig 有
amazon ec2… 有无穷无尽的资源,要么是老板付钱,要么还是停留在假设阶段,无论
如何你们不care。
我在amazon干了一年,发现认为Java最优 spring 万能 Hadoop无敌 所以毫无顾忌的去
瞎折腾的屌丝太多,我们可以把100g的数据用最浪费的方式存成1t,我们可以忍耐pig
在几百个node上简单处理不到1t的json要花几个小时,我们愿意花50%以... 阅读全帖
f******2
发帖数: 2455
34
你这个需求HDFS与Ceph都行,如果文件都是小文件建议用Ceph,但是Ceph的缺点是
系统比HDFS复杂很多。
w***g
发帖数: 5958
35
非要上文件系统的话可以用MapR。这个是用来drop in替代HDFS的,而且设计非常科学
,存大文件小文件都没有问题。性能上可以秒杀HDFS。我在地下室就搞了个8个节点的
MapR机群用来存数据(自己做民科实验,用不起amazon)。Ceph我看过一两眼。这东西出
发点是并行计算而不是文件系统,存临时数据还可以,用来做主存储服务还是算了。
z****e
发帖数: 54598
36
这种问题我真没遇到过
这也是为什么我们爱用java
因为兼容性好啊
jvm直接抹杀掉os的差异
fs的话,以前db时代,java用jdbc和hibernate来抹杀差异
现在用hdfs
app都是pure java了,所以更没啥问题
现在主要问题是hdfs跟win兼容性差点
所以有些折腾,其它都还好
抱歉,无能为力
c******o
发帖数: 1277
37
来自主题: Programming版 - 试了下spark,不过如此啊
spark 不是 hadoop的竞争者。
是mapreduce的替代品。我们的stack就是hdfs+spark+aws s3,可能会用 Cassandra 替
代hdfs.
对我们来说,hadoop (以前的BI系统),换成spark的好处有很多:
1. unified system =》 成为真正的pipeline, easy to program, modern, and
reliable, less maintenance.
2. much much faster (really, really fast for most BI use cases) , BI 最关心
的是最近,即使是历史数据,也是会对一段时间多加分析。反正测试是很快
3. uniformed way to do stream/interactive/batch/sql/ML/graph calculation, 很
多你在interactive/batch弄的东西,直接就可以用到stream, 常见的就是interactive
试验一下,成功了,转成 batch/stream,持续监视。
对一一个大型的数据... 阅读全帖
S*******e
发帖数: 525
38
你们是用standalone mode, 还是over Hadoop/HDFS? 要是standalone mode, 怎么处
理‘cluster’ 的 filesystem?
用了别人的10个datanode的Hadoop cluster 试SPARK。 Count records in files
with SPARK, 只需要4分钟(1 billion records)。 曾用 Hadoop's MR在40个
datanode上至少要用 三十几分钟。这个该死的40datanode现在试不了SPARK -- 老给我
出错.
现在, 自己组里想搭建一个小的spark cluster。 不知是用standalone mode, 还是
over hdfs。
p*****2
发帖数: 21240
39
来自主题: Programming版 - 想写一个machine learning的平台

HDFS+Cassandra,你指的是把C*数据copy到HDFS然后run mr or spark?
a****r
发帖数: 87
40
我的理解是。HBase is based on HDFS. From HBase's perspective, the HFile only
need to store one copy. HDFS保存多分来实现data failure. 所以从hbase角度。是
strong consistent.
z****e
发帖数: 54598
41
February 22, 2015 Nicole Hemsoth
art2
If you haven’t heard of Flink until now, get ready for the deluge. As one
of a stream of Apache incubator-to-top-level projects turned commercial
effort, the data processing engine’s promise is to deliver near-real time
handling of data analytics in a much faster, more condensed, and memory-
aware way than Hadoop or its in-memory predecessor, Spark, could do.
What really captured our attention, however, was the claim by Data Artisans,
the company behind Flin... 阅读全帖
a*****s
发帖数: 1121
42
资源调度这一块需要有一个吧,
资源调度角度讲,YARN是global scheduler,上千台的server可以总体调度;slider加
入以后,你可以在YARN上运行任何daemon,也就是说,你可以在一个datacenter运行你
想要的所有framework,资源调度由yarn来帮你总体处理。YARN现在也支持docker
container,加上label的功能,很容易实现multi-tenent,Altiscale这方面做的不错
,已经有上千个vm的production cluster用docker on yarn
mesos是分布式调度,比较小众,貌似只有twitter在用,俺们组的一个傻逼本科劳模天
天吹嘘
多好多好。
分布式文件系统需要有一个吧,HDFS时鼻祖,由很多变种,但是都支持HDFS的原生API。
大公司甚至国家之间,拼的是系统,上万台server的data center是需要经得起折腾的
系统,对于小公司,那就另说了。不见得需要这么robust的组件。
f*******t
发帖数: 7549
43
来自主题: Programming版 - 搞不懂为什么大牛说Hbase不如C*?
hdfs是pipeline写入模式,三个node接近串行,性能不如现在主流的quorum。
hbase基于hdfs虽然有hadoop生态圈的加成,但也严重影响了性能,最重要的是安装难
度提高太多,一般人不愿意弄
J****R
发帖数: 373
44
来自主题: Programming版 - 搞不懂为什么大牛说Hbase不如C*?
hdfs 就算串行也没理由那么慢. 2M 行左右数据,size 大概200M,写进hbase居然要半
个小时,这个有点不像话了,单node都不应该这么慢。
刚才试了一下直接把数据文件put到hdfs, 也不过用了110 seconds。
C*********r
发帖数: 21
45
来自主题: Programming版 - 怎样schedule spark application
一般单机的程序可以用autosys或者cron这种类型的工具指定在某个时间或者某个
dependency满足的情况下,在固定某台机器上面kickoff固定的程序运行,然后可以设
置一些最长跑多长时间,log位置等参数。
如果我有一个跑在hdfs cluster上面的spark程序,那我怎么类似的实现schedule
spark程序呢 (最好是整个cluster对我的scheduler都是透明的,不需要知道具体需要
跑在那台机器上面)。有什么工具或者系统推荐的么?
再一个问题是如果我想把spark程序做成一个service,通过外部的request来进行调用
,例如gui,其他web service等,这样我通过什么来和spark程序或者hdfs cluster进
行通信。大家有什么推荐的么。
刚开始学习spark,好多不懂的地方,先谢谢大家啦
c*****z
发帖数: 1211
46
来自主题: Programming版 - MapReduce 的思想是怎么发明的?
我抛个砖(一个猜测,不一定对
08年,4G内存的机器都算是高配,现如今动不动两三百G。而Intel支持amd64还是06年
的事情。
当年也没有想到现在流和即时计算的应用场景,而硬盘应该是有先天的永久存储优势的。
Hadoop/hdfs是一个分布式存储系统加一个批处理系统,这样设计时会有一个先天的框
框,就是要基于hdfs,至于上面加内存计算由于上面那些原因并没有进入设计者的视野。
z*******3
发帖数: 13709
47
来自主题: Programming版 - MapReduce 的思想是怎么发明的?
mr本质上是对不同的函数提供一个标准化的接口
就有点像spring为不同的obj提供一个标准化的接口一样
最终你不需要依赖客户的具体obj以及func
你就能写出东东来给其它人去用
hdfs本质上是对于不同node提供了一个标准化的file system接口
用了rmi,底层是jvm对于不同os的封装
db也有啊,db的统一封装就是jdbc,对于sql的统一封装就是hibernate这些
没有这些东西,你自己搞也无非那么一回事
现在hdfs的替代品也多了起来,比如c*,这个做得比较高级一点,各种工具比较多
比如vert.x也提供了一个低级的file system的封装
同样hdmr的替代品也逐步多了起来,比如yarn,spark还有蓄势待发的flink
不过这些主要是batch
stream应该是下一阶段重点,storm,rxjava,flink stream应该会大放异彩
展开新一轮的搏杀,硬盘上的数据没啥意思,还是搞内存中的数据有趣
w***g
发帖数: 5958
48
google的GFS和mapreduce是05年左右发的paper。发paper的时候他们内部应该用了几年
了。
然后06年的样子hadoop出来,到现在有快10年了。10年以前机器的内存没现在这么
大,
CPU也没现在这么快,大数据系统的软件开发也才起步。当时hadoop确实能解决不少问
题。
后来机器内存多了,很多人又发现其实数据没那么大,所以就把hadoop的out-of-core
processing抛弃了,改用spark的in-memory processing。现在hadoop有用的就是
一个HDFS文件系统。直接写mapreduce的应该少了,都是用HDFS上面的ecosystem。
另外需要注意的是这10年硬件也在发展,传统数据库的处理能力也在增强。
是不是真要用hadoop,得针对具体case分析。
a*****s
发帖数: 1121
49
来自主题: Programming版 - spark load数据速度
单从你的数据量上看,九个节点已经不错了。aws上的都是VM instance,100个不一定
有你的9个物理机器快。
wdong分析的很到位,个人感觉你的程序需要并行,spark有两级并行,选择executor的
数量,然后,选择每个executor上多少parallelism,spark prefer 大内存fat node,
如果你的机器内存不大, 恐怕效果一般,跟写mapreduce相差不多(你只是parsing),
如果可能,用SSD替换硬盘,加大内存。检查网络速度,是10GE还是1GE,压缩你的数据
(HDFS支持snappy)
用AWS从S3到本地HDFS就把你时间耗去大半,不划算。
光spark的tuning就有很多可做的,而且用spark的目的也就是为了并行。
楼主贴些详细信息,大家也可以帮你分析分析
l******n
发帖数: 9344
50
来自主题: Programming版 - 【南加内推】Big data SWE (转载)
【 以下文字转载自 JobHunting 讨论区 】
发信人: longtian (有人的地方,就有江湖), 信区: JobHunting
标 题: 【南加内推】Big data SWE
发信站: BBS 未名空间站 (Thu Dec 1 01:36:16 2016, 美东)
地点在LA, EL Segundo
最好是local或者可以relocate的,有兴趣的请把resume发到[email protected]/* */
现在希望能在明年一月份开始工作,所以有合适的人选可以很快又结果。
Major Responsibilities:
Design, code, and test enhancements for stream analytics software. Plan and
manage engineering tasks within projects,perform related requirements
analysis, performance analysis, and problem analysis. As needed, establis... 阅读全帖
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)