s****y 发帖数: 503 | 1 我这两天装了一下Hadoop2.2的集群,用了Yarn和Zookeeper,执行Mapreduce的时候都
是用命令行,比如hadoop jar mapreduceExample.jar /user/root/data/source.txt /
user/root/output/result
当然我估计实际使用的时候还会用到Flume、HBase等技术,但是实际的Hadoop系统是什
么样的?都是用命令行人工执行的?
还有Hadoop和Java的关系是不是就是用Java写Mapreduce的程序,然后把jar部署到
Hadoop中运行,Hadoop和Java的联系是不是就这些? |
d*******r 发帖数: 3299 | 2 请问 Flume 你是怎么在使用
/
【在 s****y 的大作中提到】 : 我这两天装了一下Hadoop2.2的集群,用了Yarn和Zookeeper,执行Mapreduce的时候都 : 是用命令行,比如hadoop jar mapreduceExample.jar /user/root/data/source.txt / : user/root/output/result : 当然我估计实际使用的时候还会用到Flume、HBase等技术,但是实际的Hadoop系统是什 : 么样的?都是用命令行人工执行的? : 还有Hadoop和Java的关系是不是就是用Java写Mapreduce的程序,然后把jar部署到 : Hadoop中运行,Hadoop和Java的联系是不是就这些?
|
s****y 发帖数: 503 | 3
我Flume还没用过,我现在只写了一些Mapreduce的程序。
【在 d*******r 的大作中提到】 : 请问 Flume 你是怎么在使用 : : /
|
m******e 发帖数: 201 | 4 一般有个job scheduler,比如很多用java的公司会用oozie,每天固定时间跑一次
Hadoop jobs。可以有任意多个job,互相之间也可以有依赖关系。跑完的结果可以存
HBase,RDBMS(MySQL,Oracle...,一般aggregated data),或者直接就是HDFS里。用
Java裸写Hadoop程序的已经越来越少。都是Hive/Pig生成的。还有很多ac-hoc query一
般就是用Hive。
/
【在 s****y 的大作中提到】 : 我这两天装了一下Hadoop2.2的集群,用了Yarn和Zookeeper,执行Mapreduce的时候都 : 是用命令行,比如hadoop jar mapreduceExample.jar /user/root/data/source.txt / : user/root/output/result : 当然我估计实际使用的时候还会用到Flume、HBase等技术,但是实际的Hadoop系统是什 : 么样的?都是用命令行人工执行的? : 还有Hadoop和Java的关系是不是就是用Java写Mapreduce的程序,然后把jar部署到 : Hadoop中运行,Hadoop和Java的联系是不是就这些?
|
s****y 发帖数: 503 | 5
这种情况是不是连Java都用不到了?
【在 m******e 的大作中提到】 : 一般有个job scheduler,比如很多用java的公司会用oozie,每天固定时间跑一次 : Hadoop jobs。可以有任意多个job,互相之间也可以有依赖关系。跑完的结果可以存 : HBase,RDBMS(MySQL,Oracle...,一般aggregated data),或者直接就是HDFS里。用 : Java裸写Hadoop程序的已经越来越少。都是Hive/Pig生成的。还有很多ac-hoc query一 : 般就是用Hive。 : : /
|
m******e 发帖数: 201 | 6 一个完整的服务要收集数据,做etl,还要经常把data搬来搬去,得到结果后业务逻辑
,建web services,都需要java或其他语言实现
还有要看懂Hive/Hadoop,oozie出错的log,也要有扎实的Java基础。 |