首页
论坛
未名存档
话题女王
小圈子
马甲追踪
版面排名
流量曲线
水枪排名
发帖量曲线
发帖版面饼图
发帖时间柱图
关于本站
帮助
boards
本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字
访问原贴
Programming版
- hadoop job 速度提升
相关主题
●
java的内存管理真是气死我了
●
关于mapreduce一问
●
big data怎么搞定商业报表?
●
是我的错觉么?我觉得google的三架马车其实没啥东西
●
请问为什么现在big data的toolkit都是和java有紧密的关系?
●
mapreduce, hadoop还能火几年?
●
Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
●
Intro to Hadoop and MapReduce @ ucadicy 有人学过么? 199块 (转载)
●
能不能在hadoop中用open mpi?
●
转行做data warehouse的问个学习大数据的问题
相关话题的讨论汇总
话题: hadoop
话题: job
话题: 执行
话题: mapreduce
话题: 数据
进入Programming版参与讨论
1
(共1页)
t***0
发帖数: 4
1
小弟刚接触大数据不久,最近做了一个项目, 可以让客户自己制定一些规则然后on
demand提交hadoop mapreduce job对自己的数据做analytics。
一般每个job执行时间从几分钟到几十分钟不等,现在大头希望大幅度缩短执行时间,
我们内部有些主意, 比如小的job用uber task, avro代替json, 压缩数据什么的,
准备做些poc。
还有什么其他办法或者替代技术能大幅缩短batchjob执行时间的? 比如spark,对只迭
代一次的运行有没有比hadoop mapreduce快很多
x*******1
发帖数: 28835
2
spark 不是号称比MapR快10000倍。 都cache 内存里面。不用每次I/O写到文件
1
(共1页)
进入Programming版参与讨论
相关主题
●
转行做data warehouse的问个学习大数据的问题
●
Flink Sparks Next Wave of Distributed Data Processing
●
MapReduce 的思想是怎么发明的?
●
在Hadoop 2.7上如何实现 MapReduce Job Chaining?
●
big data,菜凉?
●
我要做一个Java演示系统,用哪些前台技术比较好?
●
Hadoop写入的主流框架有哪些?
●
GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧
●
想画分布式系统架构图,类似Google的mapreduce系统,用什么软件比较好?
●
请教一个graph问题
相关话题的讨论汇总
话题: hadoop
话题: job
话题: 执行
话题: mapreduce
话题: 数据