由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - [原创] 揭开大数据平台Hadoop的真面目 5分钟包教包会
相关主题
大家推荐下学习python,hadoop的网上资源got data scientist offer, 以后要在本版多学习了
跪求Seattle附近统计职位内推merge单个文件800GB的文件
也谈为什麽要学习Python保险的modeler好不好?
Job opportunity: Statistician/Modeler (转载)~StatsGuy: 再次感谢选课的同学们!
大数据该怎么处理?分享两个data scientist职位的面经
提供内推data science engineer来讲讲SAS的优点吧
找工作总结问题回复: Python为啥只有两个小时的课?
在集成的cloudera hadoop中计算词频(wordcount)想做SAS programmer,求教各位前辈如何找intern机会
相关话题的讨论汇总
话题: hadoop话题: hive话题: sql话题: pig话题: 平台
进入Statistics版参与讨论
1 (共1页)
s*****s
发帖数: 128
1
今天5分钟为你揭开神秘的大数据平台Hadoop的真实面目。不用听各种高大上的瞎扯,
那对咱都没有用,那些人就是怕你们都学会故意不告诉你的。那本D(w(我给自己起的新
自称)为啥要告诉你们呢,本D为了当网红拼了!
之前的公司,哪哪都好,就是不推进开源软件,还是以SAS为主,也不支持大数据
Hadoop平台。开源软件自然是大势所趋啊,所以果断决定要转去一个使用开源软件的公
司。R啊Python啊都还好,R本来就很熟,Python学起来也容易,唯独这个Hadoop, 公司
没有平台,这东西又不像Python能自己免费装一个,感觉完全无从下手。热门Data
Scientist工作,各个打开都首先提到,懂Hadoop平台语言比如mapreduce, hive, pig
的优先考虑。每次一看到人家提到这Hadoop要求,就自觉矮了三分。最后硬着头皮决定
,即使没有平台练习,起码也看看基本理论吧,然后从Hadoop看起,维基百科各种论文
一一浏览,什么大数据分到各种小块上处理啊,汗都下来了,还是没明白到底咋回事。
好吧,起码提到hadoop的编程语言是mapreduce, 就想即使内在原理不完全懂,先把这
语言学学吧。一学,妈呀,这啥语言呀,和一般的R, Python, C++啥都完全不搭嘎啊,
随便一个frequency都要先写好长一段map程序,再写好长一段reduce程序,这要不是长
期熟练工,不可能短期速成啊。再后面的什么hive,pig啥蜂窝,猪的完全没胆看了,
肯定也学不会,不捅那马蜂窝了。
后来遇到现在这个位置,正好其他方面都很match, 人叫我去onsite面试,也就去了,
也没啥压力,想爱咋咋地,不要拉倒,反正我就是不会Hadoop你咋地。去了以后,各种
理论编程一一考过,答得都算不错,自然最后问到Hadoop,Hiring Manager问:你会
Hadoop吗,我:看过一点点,HM:Hadoop语言里面会哪种啊,hive, pig都用过吗?我
:都没用过,HM: 那会点啥啊?我:学过一点点MapReduce. HM:哦,我们用的一般是
Hive, Pig. 我:我是纯数学加统计背景,可能IT这种大数据平台方面差一点。HM:哦
,没事,我们会平衡考虑招各种人的。最后居然也要了我了。
好了故事讲到两个月后,我回国嗨皮的渡了个长假就去新单位上班了。上班第一天,老
板来告诉我,你被分配去啥啥项目,这个项目数据完全是在Hive平台里的,你好好干。
我说:好,一定好好学习!其实心里慌得要命。过了一会,有人发来了几个程序,说你
最近的任务就是把这些Hive程序改进一下,用新数据再更全面的做一遍。我回说: 好,
保证完成任务!然后颤抖着双手打开了那几个神秘的hive程序,打开后愣了三秒钟,我
就。。。我就。。。
怒发冲冠已经不足以形容我的心情,啥hive搞那么高大上,这不就是SQL吗!!!姐这
么多年就是靠SQL吃饭呢,即使不是神来之笔,起码也是有如神助的水平(我郁闷的成
语水平都下降了),我居然说我不会这个!我我我,我说我不会Hive, 起码一年少要了
两万块钱好吧!!!这钱足够我实现喝一碗倒一碗了好吧!!!
看了我的故事你们就明白了,别被啥Hive这么高大上的名字忽悠了,那就是搭建在
Hadoop平台上的SQL! 就跟SAS里的SQL叫SAS SQL一样,各种SQL 99.99%的语句都是一样
的,再说了,SQL这么简单的东西,过来过去不就select, group by, left/right join
, having, where那么几个词,两天就能学会。至于Hadoop理论,这么说吧,就是把一
大数据切啊切啊切,切成小块,比方说你要算一大篇文章里面的词频,一下子计算机算
不了,你就把他分段,每个集成块上算一段文章,这就叫Map阶段,最后再把结果加起
来,这就叫Reduce. Hive呢内在机制就是mapreduce, 但是facebook开发了Hive语言,
把mapreduce外在写成传统SQL语言了,就是说你写SQL就能内部在Hadoop平台上运行
mapreduce, 你根本不用自己写复杂的mapreduce。就像R, 你只要写简洁的R程序就够了
,R的内核是运行C++程序,可你根本不用了解C++一样。
紧接着,因为工作需要,我又学了pig, 这玩意不提了,一般程序语言如果说是简介精
炼的文言文的话,pig绝对就是白话文。比方说读进来一段数据就是,
load XXX using XXX;
filter XXX by XXX;
group XXX by XXX;
最关键的是,pig基本也就那么几十个命令,基本一两天也就学完了。
我就悔啊悔,我当初干嘛非看到mapreduce就止步了,往前再走一步到了hive, pig就天
地宽了啊。行了,你们都看明白了吧,或许根本就没人像我当初那么傻,可如果你也正
害怕Hadoop,吸取本D的教训,看两天Hive, Pig, 面试的时候狠狠的甩出一句:我就是
Hadoop专家,痛宰资本家一笔。
q****3
发帖数: 20
2
I like this: 面试的时候狠狠的甩出一句:我就是
Hadoop专家,痛宰资本家一笔。
z*****s
发帖数: 272
3
g****f
发帖数: 481
4
haha
t***8
发帖数: 76
5
前面讲了一堆废话
y***l
发帖数: 1095
6
璋㈣阿鍒嗕韩锛
a*****a
发帖数: 19262
7
好吧,我就当你鼓励我,我接触了一下hadoop,那个语句好烦人啊,于是我半途而废了。
我再继续努力努力。
t***l
发帖数: 335
8
lz厉害!!
J**********r
发帖数: 508
9
ding

pig

【在 s*****s 的大作中提到】
: 今天5分钟为你揭开神秘的大数据平台Hadoop的真实面目。不用听各种高大上的瞎扯,
: 那对咱都没有用,那些人就是怕你们都学会故意不告诉你的。那本D(w(我给自己起的新
: 自称)为啥要告诉你们呢,本D为了当网红拼了!
: 之前的公司,哪哪都好,就是不推进开源软件,还是以SAS为主,也不支持大数据
: Hadoop平台。开源软件自然是大势所趋啊,所以果断决定要转去一个使用开源软件的公
: 司。R啊Python啊都还好,R本来就很熟,Python学起来也容易,唯独这个Hadoop, 公司
: 没有平台,这东西又不像Python能自己免费装一个,感觉完全无从下手。热门Data
: Scientist工作,各个打开都首先提到,懂Hadoop平台语言比如mapreduce, hive, pig
: 的优先考虑。每次一看到人家提到这Hadoop要求,就自觉矮了三分。最后硬着头皮决定
: ,即使没有平台练习,起码也看看基本理论吧,然后从Hadoop看起,维基百科各种论文

E**********d
发帖数: 253
10
一言以屁之
Hive就是SQL, PIG就是猪都会写的执行命令.价值两万刀
相关主题
提供内推data science engineergot data scientist offer, 以后要在本版多学习了
找工作总结merge单个文件800GB的文件
在集成的cloudera hadoop中计算词频(wordcount)保险的modeler好不好?
进入Statistics版参与讨论
d*****t
发帖数: 7903
11
厉害啊

pig

【在 s*****s 的大作中提到】
: 今天5分钟为你揭开神秘的大数据平台Hadoop的真实面目。不用听各种高大上的瞎扯,
: 那对咱都没有用,那些人就是怕你们都学会故意不告诉你的。那本D(w(我给自己起的新
: 自称)为啥要告诉你们呢,本D为了当网红拼了!
: 之前的公司,哪哪都好,就是不推进开源软件,还是以SAS为主,也不支持大数据
: Hadoop平台。开源软件自然是大势所趋啊,所以果断决定要转去一个使用开源软件的公
: 司。R啊Python啊都还好,R本来就很熟,Python学起来也容易,唯独这个Hadoop, 公司
: 没有平台,这东西又不像Python能自己免费装一个,感觉完全无从下手。热门Data
: Scientist工作,各个打开都首先提到,懂Hadoop平台语言比如mapreduce, hive, pig
: 的优先考虑。每次一看到人家提到这Hadoop要求,就自觉矮了三分。最后硬着头皮决定
: ,即使没有平台练习,起码也看看基本理论吧,然后从Hadoop看起,维基百科各种论文

s*****s
发帖数: 128
12
欢迎关注我的公众号 DataScienceA
P****D
发帖数: 11146
13
不是各种sandbox都是免费的吗?

【在 s*****s 的大作中提到】
: 欢迎关注我的公众号 DataScienceA
s******3
发帖数: 344
14
re两万刀

pig

【在 s*****s 的大作中提到】
: 今天5分钟为你揭开神秘的大数据平台Hadoop的真实面目。不用听各种高大上的瞎扯,
: 那对咱都没有用,那些人就是怕你们都学会故意不告诉你的。那本D(w(我给自己起的新
: 自称)为啥要告诉你们呢,本D为了当网红拼了!
: 之前的公司,哪哪都好,就是不推进开源软件,还是以SAS为主,也不支持大数据
: Hadoop平台。开源软件自然是大势所趋啊,所以果断决定要转去一个使用开源软件的公
: 司。R啊Python啊都还好,R本来就很熟,Python学起来也容易,唯独这个Hadoop, 公司
: 没有平台,这东西又不像Python能自己免费装一个,感觉完全无从下手。热门Data
: Scientist工作,各个打开都首先提到,懂Hadoop平台语言比如mapreduce, hive, pig
: 的优先考虑。每次一看到人家提到这Hadoop要求,就自觉矮了三分。最后硬着头皮决定
: ,即使没有平台练习,起码也看看基本理论吧,然后从Hadoop看起,维基百科各种论文

j******g
发帖数: 1428
15
ding
1 (共1页)
进入Statistics版参与讨论
相关主题
想做SAS programmer,求教各位前辈如何找intern机会大数据该怎么处理?
六月份上Python/R/Hive 课的同学请与我联系提供内推data science engineer
最近统计工作好找吗找工作总结
做培训的有一点感受在集成的cloudera hadoop中计算词频(wordcount)
大家推荐下学习python,hadoop的网上资源got data scientist offer, 以后要在本版多学习了
跪求Seattle附近统计职位内推merge单个文件800GB的文件
也谈为什麽要学习Python保险的modeler好不好?
Job opportunity: Statistician/Modeler (转载)~StatsGuy: 再次感谢选课的同学们!
相关话题的讨论汇总
话题: hadoop话题: hive话题: sql话题: pig话题: 平台