s*****s 发帖数: 128 | 1 今天5分钟为你揭开神秘的大数据平台Hadoop的真实面目。不用听各种高大上的瞎扯,
那对咱都没有用,那些人就是怕你们都学会故意不告诉你的。那本D(w(我给自己起的新
自称)为啥要告诉你们呢,本D为了当网红拼了!
之前的公司,哪哪都好,就是不推进开源软件,还是以SAS为主,也不支持大数据
Hadoop平台。开源软件自然是大势所趋啊,所以果断决定要转去一个使用开源软件的公
司。R啊Python啊都还好,R本来就很熟,Python学起来也容易,唯独这个Hadoop, 公司
没有平台,这东西又不像Python能自己免费装一个,感觉完全无从下手。热门Data
Scientist工作,各个打开都首先提到,懂Hadoop平台语言比如mapreduce, hive, pig
的优先考虑。每次一看到人家提到这Hadoop要求,就自觉矮了三分。最后硬着头皮决定
,即使没有平台练习,起码也看看基本理论吧,然后从Hadoop看起,维基百科各种论文
一一浏览,什么大数据分到各种小块上处理啊,汗都下来了,还是没明白到底咋回事。
好吧,起码提到hadoop的编程语言是mapreduce, 就想即使内在原理不完全懂,先把这
语言学学吧。一学,妈呀,这啥语言呀,和一般的R, Python, C++啥都完全不搭嘎啊,
随便一个frequency都要先写好长一段map程序,再写好长一段reduce程序,这要不是长
期熟练工,不可能短期速成啊。再后面的什么hive,pig啥蜂窝,猪的完全没胆看了,
肯定也学不会,不捅那马蜂窝了。
后来遇到现在这个位置,正好其他方面都很match, 人叫我去onsite面试,也就去了,
也没啥压力,想爱咋咋地,不要拉倒,反正我就是不会Hadoop你咋地。去了以后,各种
理论编程一一考过,答得都算不错,自然最后问到Hadoop,Hiring Manager问:你会
Hadoop吗,我:看过一点点,HM:Hadoop语言里面会哪种啊,hive, pig都用过吗?我
:都没用过,HM: 那会点啥啊?我:学过一点点MapReduce. HM:哦,我们用的一般是
Hive, Pig. 我:我是纯数学加统计背景,可能IT这种大数据平台方面差一点。HM:哦
,没事,我们会平衡考虑招各种人的。最后居然也要了我了。
好了故事讲到两个月后,我回国嗨皮的渡了个长假就去新单位上班了。上班第一天,老
板来告诉我,你被分配去啥啥项目,这个项目数据完全是在Hive平台里的,你好好干。
我说:好,一定好好学习!其实心里慌得要命。过了一会,有人发来了几个程序,说你
最近的任务就是把这些Hive程序改进一下,用新数据再更全面的做一遍。我回说: 好,
保证完成任务!然后颤抖着双手打开了那几个神秘的hive程序,打开后愣了三秒钟,我
就。。。我就。。。
怒发冲冠已经不足以形容我的心情,啥hive搞那么高大上,这不就是SQL吗!!!姐这
么多年就是靠SQL吃饭呢,即使不是神来之笔,起码也是有如神助的水平(我郁闷的成
语水平都下降了),我居然说我不会这个!我我我,我说我不会Hive, 起码一年少要了
两万块钱好吧!!!这钱足够我实现喝一碗倒一碗了好吧!!!
看了我的故事你们就明白了,别被啥Hive这么高大上的名字忽悠了,那就是搭建在
Hadoop平台上的SQL! 就跟SAS里的SQL叫SAS SQL一样,各种SQL 99.99%的语句都是一样
的,再说了,SQL这么简单的东西,过来过去不就select, group by, left/right join
, having, where那么几个词,两天就能学会。至于Hadoop理论,这么说吧,就是把一
大数据切啊切啊切,切成小块,比方说你要算一大篇文章里面的词频,一下子计算机算
不了,你就把他分段,每个集成块上算一段文章,这就叫Map阶段,最后再把结果加起
来,这就叫Reduce. Hive呢内在机制就是mapreduce, 但是facebook开发了Hive语言,
把mapreduce外在写成传统SQL语言了,就是说你写SQL就能内部在Hadoop平台上运行
mapreduce, 你根本不用自己写复杂的mapreduce。就像R, 你只要写简洁的R程序就够了
,R的内核是运行C++程序,可你根本不用了解C++一样。
紧接着,因为工作需要,我又学了pig, 这玩意不提了,一般程序语言如果说是简介精
炼的文言文的话,pig绝对就是白话文。比方说读进来一段数据就是,
load XXX using XXX;
filter XXX by XXX;
group XXX by XXX;
最关键的是,pig基本也就那么几十个命令,基本一两天也就学完了。
我就悔啊悔,我当初干嘛非看到mapreduce就止步了,往前再走一步到了hive, pig就天
地宽了啊。行了,你们都看明白了吧,或许根本就没人像我当初那么傻,可如果你也正
害怕Hadoop,吸取本D的教训,看两天Hive, Pig, 面试的时候狠狠的甩出一句:我就是
Hadoop专家,痛宰资本家一笔。 | q****3 发帖数: 20 | 2 I like this: 面试的时候狠狠的甩出一句:我就是
Hadoop专家,痛宰资本家一笔。 | z*****s 发帖数: 272 | | g****f 发帖数: 481 | | t***8 发帖数: 76 | | y***l 发帖数: 1095 | | a*****a 发帖数: 19262 | 7 好吧,我就当你鼓励我,我接触了一下hadoop,那个语句好烦人啊,于是我半途而废了。
我再继续努力努力。 | t***l 发帖数: 335 | | J**********r 发帖数: 508 | 9 ding
pig
【在 s*****s 的大作中提到】 : 今天5分钟为你揭开神秘的大数据平台Hadoop的真实面目。不用听各种高大上的瞎扯, : 那对咱都没有用,那些人就是怕你们都学会故意不告诉你的。那本D(w(我给自己起的新 : 自称)为啥要告诉你们呢,本D为了当网红拼了! : 之前的公司,哪哪都好,就是不推进开源软件,还是以SAS为主,也不支持大数据 : Hadoop平台。开源软件自然是大势所趋啊,所以果断决定要转去一个使用开源软件的公 : 司。R啊Python啊都还好,R本来就很熟,Python学起来也容易,唯独这个Hadoop, 公司 : 没有平台,这东西又不像Python能自己免费装一个,感觉完全无从下手。热门Data : Scientist工作,各个打开都首先提到,懂Hadoop平台语言比如mapreduce, hive, pig : 的优先考虑。每次一看到人家提到这Hadoop要求,就自觉矮了三分。最后硬着头皮决定 : ,即使没有平台练习,起码也看看基本理论吧,然后从Hadoop看起,维基百科各种论文
| E**********d 发帖数: 253 | 10 一言以屁之
Hive就是SQL, PIG就是猪都会写的执行命令.价值两万刀 | | | d*****t 发帖数: 7903 | 11 厉害啊
pig
【在 s*****s 的大作中提到】 : 今天5分钟为你揭开神秘的大数据平台Hadoop的真实面目。不用听各种高大上的瞎扯, : 那对咱都没有用,那些人就是怕你们都学会故意不告诉你的。那本D(w(我给自己起的新 : 自称)为啥要告诉你们呢,本D为了当网红拼了! : 之前的公司,哪哪都好,就是不推进开源软件,还是以SAS为主,也不支持大数据 : Hadoop平台。开源软件自然是大势所趋啊,所以果断决定要转去一个使用开源软件的公 : 司。R啊Python啊都还好,R本来就很熟,Python学起来也容易,唯独这个Hadoop, 公司 : 没有平台,这东西又不像Python能自己免费装一个,感觉完全无从下手。热门Data : Scientist工作,各个打开都首先提到,懂Hadoop平台语言比如mapreduce, hive, pig : 的优先考虑。每次一看到人家提到这Hadoop要求,就自觉矮了三分。最后硬着头皮决定 : ,即使没有平台练习,起码也看看基本理论吧,然后从Hadoop看起,维基百科各种论文
| s*****s 发帖数: 128 | | P****D 发帖数: 11146 | 13 不是各种sandbox都是免费的吗?
【在 s*****s 的大作中提到】 : 欢迎关注我的公众号 DataScienceA
| s******3 发帖数: 344 | 14 re两万刀
pig
【在 s*****s 的大作中提到】 : 今天5分钟为你揭开神秘的大数据平台Hadoop的真实面目。不用听各种高大上的瞎扯, : 那对咱都没有用,那些人就是怕你们都学会故意不告诉你的。那本D(w(我给自己起的新 : 自称)为啥要告诉你们呢,本D为了当网红拼了! : 之前的公司,哪哪都好,就是不推进开源软件,还是以SAS为主,也不支持大数据 : Hadoop平台。开源软件自然是大势所趋啊,所以果断决定要转去一个使用开源软件的公 : 司。R啊Python啊都还好,R本来就很熟,Python学起来也容易,唯独这个Hadoop, 公司 : 没有平台,这东西又不像Python能自己免费装一个,感觉完全无从下手。热门Data : Scientist工作,各个打开都首先提到,懂Hadoop平台语言比如mapreduce, hive, pig : 的优先考虑。每次一看到人家提到这Hadoop要求,就自觉矮了三分。最后硬着头皮决定 : ,即使没有平台练习,起码也看看基本理论吧,然后从Hadoop看起,维基百科各种论文
| j******g 发帖数: 1428 | |
|