Hadoop Spark 学习小结[2014版] (转载) - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)

相关主题
● Hadoop Spark 学习小结[2014版] (转载)	● 公司有一些hadoop的session，大家看看那些值得去听
● 做个调查了解一下，有公司用HP Vertica 和 Hana 这些 data base的么？	● Big data是下一个大坑吗
● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？	● 请问大家有没有直接用java全程写mapreduce的程序的？
● 如何提高Spark在Yarn上的内存使用率	● 如何学习Hadoop?
● big data software engineer或者data scientist 工作机会推荐 (转载)	● 油管上这个教学视频介绍Hadoop HDFS讲得不错！
● 大数据这个东西，如果用hive，岂不是跟SQL差不多了	● 一个白痴问题，如何把access的表格导入hadoop里面去
● Re: MapR Technologies continue hiring a lot of positions (转载)	● 解密hadoop文件系统数据存储方式
● 海量数据，”大数据”，高频数据及其它---从“Big Data"说开去	● 通过日志分析yarn app实际内存用量

相关话题的讨论汇总
话题: spark话题: hadoop话题: berkeley话题: apache话题: amplab

进入DataSciences版参与讨论

(共1页)

o**********e
发帖数: 18403

【以下文字转载自 JobHunting 讨论区】
发信人: dongfeiwww (在路上), 信区: JobHunting
标题: Hadoop Spark 学习小结[2014版]
关键字: Spark,Big Data,Hadoop
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面也是比较稳定了，但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，不过也有
不少国人加入了，都是未来的希望啊。
# Spark
Spark今年大放溢彩，Spark简单说就是内存计算（或者迭代式计算，DAG计算,流式计算
）框架，
MapReduce因效率低下大家经常嘲笑， Spark号称性能超Hadoop百倍，算法实现仅有其
1/10或1/100 Reynold 作为Spark核心开发者，介绍
http://www.csdn.net/article/2013-04-26/2815057-Spark-Reynold
http://www.csdn.net/article/2014-08-07/2821098-6-sparkling-feat
起源于2010年Berkeley AMPLab，发表在hotcloud上
https://www.usenix.org/legacy/events/hotcloud10/tech/full_papers/Zaharia.pdf
是一个从学术界到工业界的成功典范，所以也吸引了顶级VC：Andreessen Horowitz的
注资
BTW: 这个实验室非常厉害，做大数据，云计算，跟工业界结合很紧密，比如Twitter也
Berkeley开了门课程
http://blogs.ischool.berkeley.edu/i290-abdt-s12/
还有个BDAS (Bad Ass)引以为傲: https://amplab.cs.berkeley.edu/software/
http://gigaom.com/2014/08/02/the-lab-that-created-spark-wants-t
在2013年，这些大牛出动把Berkeley AMPLab的人拉出去成立了Databricks，半年就做
了2次summit
参会1000人，引无数Hadoop大佬尽折腰，大家看一下Summit的sponsor，所有hadoop厂
商全来了，并且各个技术公司也在巴结，cloudrea, hortonworks, mapr, datastax,
yahoo, ooyala, 根据CTO说 Spark新增代码量活跃度今年远远超过了Hadoop本身
，马上要推出商业化产品Cloud
Spark 核心人物
Ion Stoica ：http://www.cs.berkeley.edu/~istoica/ Berkeley教授，AMPLab 领军
Matei Zaharia：http://people.csail.mit.edu/matei/ 天才，MIT助理教授
Reynold Xin: http://www.eecs.berkeley.edu/~rxin/
Haoyuan Li: http://www.cs.berkeley.edu/~haoyuan/
http://www.wired.com/2013/06/yahoo-amazon-amplab-spark/all/
其实起名字也很重要，Spark就占了先机，CTO说 Where there's spark, there's fire!
http://inside-bigdata.com/2014/07/15/theres-spark-theres-fire-s
Spark核心数据结构：
Resilient Distributed Datasets: A Fault-Tolerant Abstraction for
In-Memory Cluster Computing
https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf
Spark目前是1.0.2最新版本：https://spark.apache.org/docs/1.0.2/
目前还有一些子项目，比如 Spark SQL, Spark Streaming, MLLib, Graphx
如；http://spark.apache.org/streaming/
工业界也引起广泛兴趣，国内Taobao, baidu也开始使用：
https://cwiki.apache.org/confluence/display/SPARK/Powered+By+Spark
Apache Spark支持4种分布式部署方式，分别是Amazon EC2, standalone、spark on
mesos和 spark on YARN
比如AWS:
http://www.getblueshift.com/blog/?p=56
至于如何入门，还是得好好看官方文档，上面有入门，搭建环境，Summit上的视频也是
http://spark-summit.org/2014/
也有个training视频：
http://spark-summit.org/2014/training
今年的Summit 回顾
http://www.csdn.net/article/2014-07-17/2820713
今年最叫好的demo是Dtabricks Cloud, 把twitter上面实时收集的数据做作为machine
learning素材，
用类似IPython notebook，可视化呈现惊艳，而搭建整个sampling系统就花了20分钟！
http://databricks.com/cloud
CSDN上面也有个Spark专栏，大家可以多去看看
spark.csdn.net
还有一些第三方的项目基于Spark上面
Web interactive UI on Hadoop/Spark: http://gethue.com/
Spark on cassandra:
http://planetcassandra.org/getting-started-with-apache-spark-an
https://github.com/datastax/spark-cassandra-connector
http://tuplejump.github.io/calliope/
H2O + Spark:
http://databricks.com/blog/2014/06/30/sparkling-water-h20-spark
Shark - Hive and SQL on top of Spark
MLbase - Machine Learning research project on top of Spark
BlinkDB - a massively parallel, approximate query engine built on top of
Shark and Spark
GraphX - a graph processing & analytics framework on top of Spark (GraphX
has been merged into Spark 0.9)
Apache Mesos - Cluster management system that supports running Spark
Tachyon - In memory storage system that supports running Spark
Apache MRQL - A query processing and optimization system for large-scale,
distributed data analysis, built on top of Apache Hadoop, Hama, and Spark
OpenDL - A deep learning algorithm library based on Spark framework. Just
kick off.
SparkR - R frontend for Spark
Spark Job Server - REST interface for managing and submitting Spark jobs on
the same cluster

(共1页)

进入DataSciences版参与讨论

相关主题
● 通过日志分析yarn app实际内存用量	● big data software engineer或者data scientist 工作机会推荐 (转载)
● 求Hadoop项目练手	● 大数据这个东西，如果用hive，岂不是跟SQL差不多了
● 诚心请教Spark EMR配置	● Re: MapR Technologies continue hiring a lot of positions (转载)
● 一个关于big data 系统架构的设计问题	● 海量数据，”大数据”，高频数据及其它---从“Big Data"说开去
● Hadoop Spark 学习小结[2014版] (转载)	● 公司有一些hadoop的session，大家看看那些值得去听
● 做个调查了解一下，有公司用HP Vertica 和 Hana 这些 data base的么？	● Big data是下一个大坑吗
● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？	● 请问大家有没有直接用java全程写mapreduce的程序的？
● 如何提高Spark在Yarn上的内存使用率	● 如何学习Hadoop?

相关话题的讨论汇总
话题: spark话题: hadoop话题: berkeley话题: apache话题: amplab

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天