由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Java版 - 请问Hadoop要怎么学?
相关主题
hadoop 2.0要出来了,我看了下架构,感觉很复杂啊有没有大牛在搞cloud?-- 包子贴
开发前景光明啊Java Map 存 1 million 记录
cloudera的hadoop有什么不同?疯了!J2EE应该到哪里找工作?
版上有用hadoop的吗?有人用过APACHE的hdf处理MSword吗?
现在什么CLOUD COMPUTING,HADOOP,MAPREDUCE,GFS,HIVE什么的,火的一塌糊涂`~大牛来分析分析~Amazon.com is hiring in Seattle WA- Software Engineers/Senior Software Engineers
有人再用hadoop2.0吗?我来说一下什么是烂技术吧,补充一下是从找工作混饭角度。
java class definition and implementationBIgData对job market的影响?
云计算如何应用到传统的web server应用现在感觉到为什么大家说mongo有很多问题了
相关话题的讨论汇总
话题: hadoop话题: mapreduce话题: 请问话题: definitive话题: guide
进入Java版参与讨论
1 (共1页)
x*******6
发帖数: 262
1
有没有入门级的资料?
S*******h
发帖数: 7021
2
之前有网友推荐这些. 我还没去仔细看过 你参考看看吧 有用的话上来吱一声
---------
发信人: dongfeiwww (人人都是艺术家), 信区: JobHunting
标 题: hadoop面试和学习总结
发信站: BBS 未名空间站 (Thu Mar 1 04:05:10 2012, 美东)
随著大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0
新旧API不同
进阶:
Hadoop 参数调优,cluster level: JVM, map/reduce slots, job level: reducer #,
memory, use combiner? use compression?
pig latin, Hive 简单语法
HBase, zookeeper 搭建
最新:
关注cloudera, hortonworks blog
next generation MR2框架
高可靠性, namenode: avoid single point of failure
数据流系统:streaming storm(twitter).
演练算法:
wordcount
terasort
字典同位词
翻译sql语句 select count(x) from a group by b;

【在 x*******6 的大作中提到】
: 有没有入门级的资料?
S****h
发帖数: 558
3
http://developer.yahoo.com/hadoop/tutorial/index.html
This tutorial is a little dated. But it is still very much relevant. Most
idea in Hadoop does not change much.
Once you get that fixed, you can try the Definitive Guide. If you want to
test-drive, remember to use the local-mode, don't jump to the full
distributed mode directly.

【在 x*******6 的大作中提到】
: 有没有入门级的资料?
l***z
发帖数: 61
4
谢谢,我正在看这本书,内容很好!
另外,我还同时在看另外一本书《Agile Data Science Building Data Analytics
Applications with Hadoop》,偏实用。

【在 S*******h 的大作中提到】
: 之前有网友推荐这些. 我还没去仔细看过 你参考看看吧 有用的话上来吱一声
: ---------
: 发信人: dongfeiwww (人人都是艺术家), 信区: JobHunting
: 标 题: hadoop面试和学习总结
: 发信站: BBS 未名空间站 (Thu Mar 1 04:05:10 2012, 美东)
: 随著大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper

1 (共1页)
进入Java版参与讨论
相关主题
现在感觉到为什么大家说mongo有很多问题了现在什么CLOUD COMPUTING,HADOOP,MAPREDUCE,GFS,HIVE什么的,火的一塌糊涂`~大牛来分析分析~
听说HBase很难用有人再用hadoop2.0吗?
看了下storm,大概明白了怎么做real time系统了java class definition and implementation
工厂模式云计算如何应用到传统的web server应用
hadoop 2.0要出来了,我看了下架构,感觉很复杂啊有没有大牛在搞cloud?-- 包子贴
开发前景光明啊Java Map 存 1 million 记录
cloudera的hadoop有什么不同?疯了!J2EE应该到哪里找工作?
版上有用hadoop的吗?有人用过APACHE的hdf处理MSword吗?
相关话题的讨论汇总
话题: hadoop话题: mapreduce话题: 请问话题: definitive话题: guide