r*******k 发帖数: 44 | 1 yarn 的几个比较大的目的包括:
1) support 4k+ nodes
2) support 除mapred 外其他的computation frameworks, like mpi, Giraph, spark,
etc.
对于1来说,目前只对yahoo 一家有意义,他们公司的策略是建一个几万node 的
cluster shared by 所有项目。95%的公司根本没这个规模,其他5% 有相同规模的公司
都采用多个cluster, each for a project 的模式,最大1k node 顶头了。
真正需要2的,不好说有多少,听人propose的多,真正用的人不知道。
因为以上这些原因,他们需要把resource, node, application and job management
分开,提供不同的services。听起来复杂,实际totally make sense.
yarn 这个项目从一开始就是被yahoo 推动,而后有hortonworks 接手。yarn 的方向不
错,但目前,和短期内,只对yahoo 有意义,对多数人来说,可以不用管。我本人觉得
,... 阅读全帖 |
|
r*******k 发帖数: 44 | 2 看你要学习什么了。如果是只是mapred 编程,理论上(只是理论上)1、2 上的mapred
代码兼容。你不需要了解yarn那些乱七八糟的service。
如果你要了解分布计算比如hadoop, mpi 之类的系统设计,当然要知道一些yarn的构架
,交互之类。
运营方面,据我所知,即便是这个领域的人,多数也就是聊聊,实用的不会很多。
如果只是初学者,不用关注过多。绝对不会有公司(除了hortonworks?)要求
candidate 有yarn 经验。 |
|
g*****g 发帖数: 34805 | 3 你真是脸不嫌肿。Linq to HPC不是mapreduce都出来了。
http://www.zdnet.com/blog/microsoft/microsoft-drops-dryad-puts-
Microsoft drops Dryad; puts its big-data bets on Hadoop
Summary: Microsoft is dropping its 'Dryad' big-data processing work and
focusing, instead, on developing a Windows Azure and Windows Server
implementation of Hadoop.
Just a month after insisting there was still a place for its own Hadoop
competitor, Microsoft officials have decided to discontinue work on LINQ to
HPC, codenamed "Dryad."
In a N... 阅读全帖 |
|
g*****g 发帖数: 34805 | 4 LOL, maybe not for web startups, but Java are ubiquitous in virtually
anything
else. From mobile, smart device, big data, cloud computing. e.g. Quancast,
Nest. Most companies in the list below are java shop startups (cloudera,
hortonworks
etc).
http://wiki.apache.org/hadoop/Support
You guys need to brighten yourselves. |
|
|
|
m****i 发帖数: 3406 | 7 不懂的东西就别胡扯,
在production system用开源的东西有几个公司敢不买support的?
开源东西复杂了之后根本不是1,2个人(假设你能雇到)能搞定的
人家在10gen,basho,couch,hortonworks,cloudera,datastax造轮子的,
出去到哪里都抢着要,反过来就不是这么回事了。 |
|
f********x 发帖数: 99 | 8 Hadoop
Hortonworks 的主力基本都是印度人 |
|
f******2 发帖数: 2455 | 9 Cloudera, mapr, hortonworks, databricks都是圈钱的,
不过它们留下来的东西是有用处的 |
|
c****e 发帖数: 1453 | 10 simple IO显不出来。HIVE用了0.13? HIVE实现stinger initiative以后,本来就快了
差不多50倍。Cloudera当时想放弃HIVE, 专心推Imapla现在也被迫回头了。
Hortonworks给Windows提供HDInsight有点结盟的意思,微软贡献了SQL query
optimization到HIVE,还有column file compression format. 这些东西都加上去,和
Spark差别没那么大。一般的逻辑处理,不是极端的算法,5倍到10倍撑死了。
Spark除了RDD, 说到底是继承了Dryad的paper, 用operator做处理比纯粹的MR效率高很
多,再加上中间i/o不要都写到硬盘上,速度一下子上来了。HIVE stinger也是搬这一
套,普通的商业逻辑处理差别只会越来越小。
迭代的算法Spark优势会比较大,但是ML-Lib东西还比较少。没有用过,有用过的出来
说说perf吗?比如我跑个vowpal-wabbit会快多少倍? |
|
a******n 发帖数: 5925 | 11 现在spark 火到想contribute都不容易
几百个pull request 摆在那里不一定都会merge
一个在hortonworks上班的哥们搞了好费劲
硬是没有merge, 上不了contributor list |
|
a*****s 发帖数: 1121 | 12 一般公司都是物尽其用,大cluster意味着运行的程序更多。要找富余,只有根据历史
记录找application少的时间。这段时间能否保证所有都upgrade。不清楚是不是
hortonworks自己做过大规模RU测试没有。 |
|
|
l******o 发帖数: 52 | 14 【 以下文字转载自 DataSciences 讨论区 】
发信人: laihaobo (数海扬帆), 信区: DataSciences
标 题: 海量数据,”大数据”,高频数据及其它---从“Big Data"说开去
发信站: BBS 未名空间站 (Wed Aug 20 23:31:38 2014, 美东)
第一帖:“Big Data”之本土发展
上个周末,凑数看《非诚勿扰》。诧异间发现“大数据”这个名词被频频提起。这可能
得益于参加节目的英国名校某在读统计(?)博士生的精彩表现,当然更反映了这一概
念的热度。这让我想起了若干年前关于股市的美谈。(大意)是说某大娘早上去菜市场
买鸡蛋,结果没买鸡蛋,却买了几股股票回来芸芸。这更勾起了我想写这几个帖子的迫
切程度---再不写,”大数据”也许就要进菜市场了:-)。
“Big Data”这个概念首先在美国被提出,了解在其“本土”的发展可以提供我们了解
它的脉络。“Big Data”从Doug Laney 2001年的一分产业评论始造蛹(见link i),提
出“Big Data”三大基本特征:Volume, Velocity, and Va... 阅读全帖 |
|
|
n*********e 发帖数: 318 | 16 http://techcrunch.com/2016/03/02/are-site-reliability-engineers
这已经不是什么秘密,“数据科学家”是最热门的职称会之一。 DJ·帕蒂尔著名宣布
的数据科学家“ 21世纪最sexy的工作在继续加入白宫的” 第一首席数据科学家 ,美
国一旦处于少数领先的互联网公司,如LinkedIn和PayPal内部角色,数据科学至今成长
为一个全球性的现象,在许多行业影响各种规模的组织。
最近,巴齐新的职位已经从同一集团的公司出现了:该网站可靠性工程师,或SRE的。
事件将按照快速增长的数据科学家在他们面前相同的路? 在我们深入这个问题
,让我们考虑已导致建立网站可靠性工程的背景。
新的IT架构
在过去的15年中,最大的互联网性质已经悄然引领IT技术的一次革命。 原因很简单:
传统的企业数据中心的技术根本就不能有效地扩展到了需要运行像谷歌或Facebook全球
服务水平。 相反,这些公司不得不在技术堆栈的所有层,以创新,从硬件到网络应用
程序。
在许多情况下,所产生的积木已经发布为开源软件包,或有启发第三方创建他们自己的
版本。 现在,企业... 阅读全帖 |
|
d*2 发帖数: 2053 | 17 http://vision.cloudera.com/impala-v-hive/
by Mike Olson
December 22, 2013
We introduced Cloudera Impala more than a year ago. It was a good launch for
us — it made our platform better in ways that mattered to our customers,
and it’s allowed us to win business that was previously unavailable because
earlier products simply couldn’t tackle interactive SQL workloads.
As a side effect, though, that launch ignited fierce competition among
vendors for SQL market share in the Apache Hadoop ecosystem, w... 阅读全帖 |
|
o**a 发帖数: 1315 | 18 进来re一下,觉得Hortonworks有SQL Server和SAS的东家撑着,在业界还是能绿一阵的 |
|
z****e 发帖数: 54598 | 19 【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: Hadoop Spark 学习小结[2014版]
关键字: Hadoop,Big Data,Spark
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks,不过也有
不少国人加入了,
都是未来的希望啊。
http://hadoop.apache.org/who.html
# Spark
Spark今年大... 阅读全帖 |
|
l******o 发帖数: 52 | 20 第一帖:“Big Data”之本土发展
上个周末,凑数看《非诚勿扰》。诧异间发现“大数据”这个名词被频频提起。这可能
得益于参加节目的英国名校某在读统计(?)博士生的精彩表现,当然更反映了这一概
念的热度。这让我想起了若干年前关于股市的美谈。(大意)是说某大娘早上去菜市场
买鸡蛋,结果没买鸡蛋,却买了几股股票回来芸芸。这更勾起了我想写这几个帖子的迫
切程度---再不写,”大数据”也许就要进菜市场了:-)。
“Big Data”这个概念首先在美国被提出,了解在其“本土”的发展可以提供我们了解
它的脉络。“Big Data”从Doug Laney 2001年的一分产业评论始造蛹(见link i),提
出“Big Data”三大基本特征:Volume, Velocity, and Variety。2005年前后,因为
Hadoop 的兴起,从根本上将并行计算平民化。这是因为它和以它为基础的相关开源软
件,开启了一个大规模数据处理的新时代。这一时代的大量规模系统具有有以下特征:
使用低门槛硬件(Commodity Hardware), 开源软件为主导(Opensource Software),... 阅读全帖 |
|
s*********h 发帖数: 6288 | 21 pig / hive 可以下一个hortonwork的免费distribution |
|
|
|
t*********u 发帖数: 26311 | 24 从data scientist和analyst的角度
• Technical Upgrade Planning and Implementation
• Leveraging Hadoop 2.2 for Query Performance Improvements
• Solr Business Use Cases and Integration with Hadoop
• Machine Learning in Manufacturing (use cases, workshop, etc.)
• Discuss Kafka, Storm, Mahout, Spark in Supporting Sentiment
Analysis
• Discuss Hortonworks Data Science Capability and Service
Offerings
• Amazon Product Alerting
• B... 阅读全帖 |
|
|
发帖数: 1 | 26 【IT求职成功分享视频】
https://youtube.com/playlist?list=PLRMhRP6Z9GjQMa3LmGMOgoYfuzErGOifZ
【微软Dynamic CRM 项目求职和证书】
OTO(线下线上授课)
最权威的CRM专家
最火爆炙热的职场和市场需求
最精品高效的IT技术
最有效的IT求职培训
知识传递,面试,求职一包到底,100%获取微软CRM 认证证书
云,移动和大数据三大技术趋势以及社交化的发展正在构建新型的IT生态环境,也进一
步将个人与企业紧密地联系起来,使得企业运营和决策能够及时反应来自市场的需求,
让客户满意度最大化,也让企业本身经济效益最大化。这一切都与CRM的广泛成熟运用
密不可分。何为CRM? CRM是Customer Relationship Management的缩写,也就是客户
关系管理。这是一套集销售管理、市场管理、服务管理、敏捷市场反应以及客户商机数
据分析挖掘的平台和技术。
微软的基于云技术的Dynamic CRM平台是目前CRM解
决方案的领导者,被广泛地应用于各个行业如银行、金融、证券、制造业、政府、医疗
... 阅读全帖 |
|
z*******n 发帖数: 1034 | 27 Here they are.
Actifio: The company developed a way to pare down the number of copies of a
given piece of data while ensuring it will be available whenever someone
needs it. Back in March, Actifio’s valuation was “a good $100 million over
$1 billion,” founder and chief executive Ash Ashutosh told VentureBeat.
Airbnb: It’s not clear that the company is ready to go public, but this
doesn’t mean it’s an impossibility. In August, Airbnb disclosed that it
had taken on a whopping $475 million funding ... 阅读全帖 |
|