由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - [原创] 揭开大数据平台Hadoop的真面目 5分钟包教包会 (转载)
相关主题
hadoop面试和学习总结求Google 的 Data Science 有关的位置内推
还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?Applied Scientist for Search Relevance 加州
该选哪个方向为什么 data analyst工作那么难找啊
如何用hadoop 析取各种数据?三藩公司招entry level data scientists
现在去做hadoop的公司工作还有前途吗?要不要跟风搞搞big data?
请问如何准备data scientist工作面试?2014 找工作总结
如何学习Hadoop/HiveDrawbridge fulltime openings
Linkedin招聘 data analyst提供Yahoo!内推
相关话题的讨论汇总
话题: hadoop话题: hive话题: sql话题: pig话题: 平台
进入JobHunting版参与讨论
1 (共1页)
z*****s
发帖数: 272
1
【 以下文字转载自 Statistics 讨论区 】
发信人: sphinks (Tommy), 信区: Statistics
标 题: [原创] 揭开大数据平台Hadoop的真面目 5分钟包教包会
发信站: BBS 未名空间站 (Tue Jun 21 13:53:11 2016, 美东)
今天5分钟为你揭开神秘的大数据平台Hadoop的真实面目。不用听各种高大上的瞎扯,
那对咱都没有用,那些人就是怕你们都学会故意不告诉你的。那本D(w(我给自己起的新
自称)为啥要告诉你们呢,本D为了当网红拼了!
之前的公司,哪哪都好,就是不推进开源软件,还是以SAS为主,也不支持大数据
Hadoop平台。开源软件自然是大势所趋啊,所以果断决定要转去一个使用开源软件的公
司。R啊Python啊都还好,R本来就很熟,Python学起来也容易,唯独这个Hadoop, 公司
没有平台,这东西又不像Python能自己免费装一个,感觉完全无从下手。热门Data
Scientist工作,各个打开都首先提到,懂Hadoop平台语言比如mapreduce, hive, pig
的优先考虑。每次一看到人家提到这Hadoop要求,就自觉矮了三分。最后硬着头皮决定
,即使没有平台练习,起码也看看基本理论吧,然后从Hadoop看起,维基百科各种论文
一一浏览,什么大数据分到各种小块上处理啊,汗都下来了,还是没明白到底咋回事。
好吧,起码提到hadoop的编程语言是mapreduce, 就想即使内在原理不完全懂,先把这
语言学学吧。一学,妈呀,这啥语言呀,和一般的R, Python, C++啥都完全不搭嘎啊,
随便一个frequency都要先写好长一段map程序,再写好长一段reduce程序,这要不是长
期熟练工,不可能短期速成啊。再后面的什么hive,pig啥蜂窝,猪的完全没胆看了,
肯定也学不会,不捅那马蜂窝了。
后来遇到现在这个位置,正好其他方面都很match, 人叫我去onsite面试,也就去了,
也没啥压力,想爱咋咋地,不要拉倒,反正我就是不会Hadoop你咋地。去了以后,各种
理论编程一一考过,答得都算不错,自然最后问到Hadoop,Hiring Manager问:你会
Hadoop吗,我:看过一点点,HM:Hadoop语言里面会哪种啊,hive, pig都用过吗?我
:都没用过,HM: 那会点啥啊?我:学过一点点MapReduce. HM:哦,我们用的一般是
Hive, Pig. 我:我是纯数学加统计背景,可能IT这种大数据平台方面差一点。HM:哦
,没事,我们会平衡考虑招各种人的。最后居然也要了我了。
好了故事讲到两个月后,我回国嗨皮的渡了个长假就去新单位上班了。上班第一天,老
板来告诉我,你被分配去啥啥项目,这个项目数据完全是在Hive平台里的,你好好干。
我说:好,一定好好学习!其实心里慌得要命。过了一会,有人发来了几个程序,说你
最近的任务就是把这些Hive程序改进一下,用新数据再更全面的做一遍。我回说: 好,
保证完成任务!然后颤抖着双手打开了那几个神秘的hive程序,打开后愣了三秒钟,我
就。。。我就。。。
怒发冲冠已经不足以形容我的心情,啥hive搞那么高大上,这不就是SQL吗!!!姐这
么多年就是靠SQL吃饭呢,即使不是神来之笔,起码也是有如神助的水平(我郁闷的成
语水平都下降了),我居然说我不会这个!我我我,我说我不会Hive, 起码一年少要了
两万块钱好吧!!!这钱足够我实现喝一碗倒一碗了好吧!!!
看了我的故事你们就明白了,别被啥Hive这么高大上的名字忽悠了,那就是搭建在
Hadoop平台上的SQL! 就跟SAS里的SQL叫SAS SQL一样,各种SQL 99.99%的语句都是一样
的,再说了,SQL这么简单的东西,过来过去不就select, group by, left/right join
, having, where那么几个词,两天就能学会。至于Hadoop理论,这么说吧,就是把一
大数据切啊切啊切,切成小块,比方说你要算一大篇文章里面的词频,一下子计算机算
不了,你就把他分段,每个集成块上算一段文章,这就叫Map阶段,最后再把结果加起
来,这就叫Reduce. Hive呢内在机制就是mapreduce, 但是facebook开发了Hive语言,
把mapreduce外在写成传统SQL语言了,就是说你写SQL就能内部在Hadoop平台上运行
mapreduce, 你根本不用自己写复杂的mapreduce。就像R, 你只要写简洁的R程序就够了
,R的内核是运行C++程序,可你根本不用了解C++一样。
紧接着,因为工作需要,我又学了pig, 这玩意不提了,一般程序语言如果说是简介精
炼的文言文的话,pig绝对就是白话文。比方说读进来一段数据就是,
load XXX using XXX;
filter XXX by XXX;
group XXX by XXX;
最关键的是,pig基本也就那么几十个命令,基本一两天也就学完了。
我就悔啊悔,我当初干嘛非看到mapreduce就止步了,往前再走一步到了hive, pig就天
地宽了啊。行了,你们都看明白了吧,或许根本就没人像我当初那么傻,可如果你也正
害怕Hadoop,吸取本D的教训,看两天Hive, Pig, 面试的时候狠狠的甩出一句:我就是
Hadoop专家,痛宰资本家一笔。
j*******l
发帖数: 1066
2
好文
让hadoop使用这么容易是hive和pig 设计者的巨大成功
当然map reduce理论容易 在工程实现上(i.e.scalling,error handling)还是很复
杂的
a****e
发帖数: 9589
3
其实整个IT界本来就是熟练工种,偏偏三天两头整出几个新名词来忽悠人。

【在 j*******l 的大作中提到】
: 好文
: 让hadoop使用这么容易是hive和pig 设计者的巨大成功
: 当然map reduce理论容易 在工程实现上(i.e.scalling,error handling)还是很复
: 杂的

s*****r
发帖数: 43070
4
姐你牛什么牛啊,等着一堆FG会跳出来扁你
x******r
发帖数: 3489
5
你说医生和软工算工人吗。我最近一直在想这个。到底什么是工人。

【在 a****e 的大作中提到】
: 其实整个IT界本来就是熟练工种,偏偏三天两头整出几个新名词来忽悠人。
a****e
发帖数: 9589
6
这个要看有没有人剥削。工人嘛,就是有工作的人,就是被人剥削的人。

【在 x******r 的大作中提到】
: 你说医生和软工算工人吗。我最近一直在想这个。到底什么是工人。
x******r
发帖数: 3489
7
恩,有道理。

【在 a****e 的大作中提到】
: 这个要看有没有人剥削。工人嘛,就是有工作的人,就是被人剥削的人。
1 (共1页)
进入JobHunting版参与讨论
相关主题
提供Yahoo!内推现在去做hadoop的公司工作还有前途吗?
Ancestry is hiring Data Scientist/Senior Data Scientist请问如何准备data scientist工作面试?
怎样才可以去硅谷大公司做Analyst啊?如何学习Hadoop/Hive
大家介绍一下当下比较流行的网页编程吧 (转载)Linkedin招聘 data analyst
hadoop面试和学习总结求Google 的 Data Science 有关的位置内推
还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?Applied Scientist for Search Relevance 加州
该选哪个方向为什么 data analyst工作那么难找啊
如何用hadoop 析取各种数据?三藩公司招entry level data scientists
相关话题的讨论汇总
话题: hadoop话题: hive话题: sql话题: pig话题: 平台