z****e 发帖数: 54598 | 1 远比当年的ejb要麻烦
麻烦得多
client->resource manager->application master->node manager->container
这样一路下来,每一个都要配置,发送一个命令要填写端口什么的,无比麻烦
安装还要涉及jar,file的路径的问题
话说搞jboss也就那么一两下搞定,这个貌似比最麻烦的ejb还麻烦 | z****e 发帖数: 54598 | 2 node manager的管理方式让我想起ejb
期间有container还有application context | b******y 发帖数: 9224 | 3 听到ejb, 我有点蛋疼 -:)
还没学Hadoop 1.0。
2.0是不是和1.0差别很大? | t*******e 发帖数: 684 | 4 名字都改了,叫YARN,算是个complete overhaul。不过旧的map,reduce classes还是
支持的。
【在 z****e 的大作中提到】 : 远比当年的ejb要麻烦 : 麻烦得多 : client->resource manager->application master->node manager->container : 这样一路下来,每一个都要配置,发送一个命令要填写端口什么的,无比麻烦 : 安装还要涉及jar,file的路径的问题 : 话说搞jboss也就那么一两下搞定,这个貌似比最麻烦的ejb还麻烦
| r*******k 发帖数: 44 | 5 yarn 的几个比较大的目的包括:
1) support 4k+ nodes
2) support 除mapred 外其他的computation frameworks, like mpi, Giraph, spark,
etc.
对于1来说,目前只对yahoo 一家有意义,他们公司的策略是建一个几万node 的
cluster shared by 所有项目。95%的公司根本没这个规模,其他5% 有相同规模的公司
都采用多个cluster, each for a project 的模式,最大1k node 顶头了。
真正需要2的,不好说有多少,听人propose的多,真正用的人不知道。
因为以上这些原因,他们需要把resource, node, application and job management
分开,提供不同的services。听起来复杂,实际totally make sense.
yarn 这个项目从一开始就是被yahoo 推动,而后有hortonworks 接手。yarn 的方向不
错,但目前,和短期内,只对yahoo 有意义,对多数人来说,可以不用管。我本人觉得
,yarn 有点over design,resource management 也许用一些更通用,轻一点东西更好。
btw 不用对hadoop的版本号太当真,2不一定比1好。多数人用1,然后会等到3去试试
yarn。
> 无比麻烦
> 安装还要涉及jar,file的路径的问题
你肯定要通过management 工具-cloudera manager or ambari-来做这件事情。手动
配置任何hadoop cluster 现在都不太现实。
【在 z****e 的大作中提到】 : 远比当年的ejb要麻烦 : 麻烦得多 : client->resource manager->application master->node manager->container : 这样一路下来,每一个都要配置,发送一个命令要填写端口什么的,无比麻烦 : 安装还要涉及jar,file的路径的问题 : 话说搞jboss也就那么一两下搞定,这个貌似比最麻烦的ejb还麻烦
| p*****2 发帖数: 21240 | 6
spark,
所以现在学习1就可以了?
【在 r*******k 的大作中提到】 : yarn 的几个比较大的目的包括: : 1) support 4k+ nodes : 2) support 除mapred 外其他的computation frameworks, like mpi, Giraph, spark, : etc. : 对于1来说,目前只对yahoo 一家有意义,他们公司的策略是建一个几万node 的 : cluster shared by 所有项目。95%的公司根本没这个规模,其他5% 有相同规模的公司 : 都采用多个cluster, each for a project 的模式,最大1k node 顶头了。 : 真正需要2的,不好说有多少,听人propose的多,真正用的人不知道。 : 因为以上这些原因,他们需要把resource, node, application and job management : 分开,提供不同的services。听起来复杂,实际totally make sense.
| r*******k 发帖数: 44 | 7 看你要学习什么了。如果是只是mapred 编程,理论上(只是理论上)1、2 上的mapred
代码兼容。你不需要了解yarn那些乱七八糟的service。
如果你要了解分布计算比如hadoop, mpi 之类的系统设计,当然要知道一些yarn的构架
,交互之类。
运营方面,据我所知,即便是这个领域的人,多数也就是聊聊,实用的不会很多。
如果只是初学者,不用关注过多。绝对不会有公司(除了hortonworks?)要求
candidate 有yarn 经验。
【在 p*****2 的大作中提到】 : : spark, : 所以现在学习1就可以了?
| p*****2 发帖数: 21240 | 8
mapred
这个感觉最好还是做相关工作比较知道需要学习什么。不然平时学了不用,意义也不是
很大。而且很快就忘了。
【在 r*******k 的大作中提到】 : 看你要学习什么了。如果是只是mapred 编程,理论上(只是理论上)1、2 上的mapred : 代码兼容。你不需要了解yarn那些乱七八糟的service。 : 如果你要了解分布计算比如hadoop, mpi 之类的系统设计,当然要知道一些yarn的构架 : ,交互之类。 : 运营方面,据我所知,即便是这个领域的人,多数也就是聊聊,实用的不会很多。 : 如果只是初学者,不用关注过多。绝对不会有公司(除了hortonworks?)要求 : candidate 有yarn 经验。
| z****e 发帖数: 54598 | 9 不错,再多说点
spark,
【在 r*******k 的大作中提到】 : yarn 的几个比较大的目的包括: : 1) support 4k+ nodes : 2) support 除mapred 外其他的computation frameworks, like mpi, Giraph, spark, : etc. : 对于1来说,目前只对yahoo 一家有意义,他们公司的策略是建一个几万node 的 : cluster shared by 所有项目。95%的公司根本没这个规模,其他5% 有相同规模的公司 : 都采用多个cluster, each for a project 的模式,最大1k node 顶头了。 : 真正需要2的,不好说有多少,听人propose的多,真正用的人不知道。 : 因为以上这些原因,他们需要把resource, node, application and job management : 分开,提供不同的services。听起来复杂,实际totally make sense.
|
|