hadoop job 速度提升 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - hadoop job 速度提升

相关主题
● java的内存管理真是气死我了
● 关于mapreduce一问
● big data怎么搞定商业报表？
● 是我的错觉么？我觉得google的三架马车其实没啥东西
● 请问为什么现在big data的toolkit都是和java有紧密的关系？
● mapreduce, hadoop还能火几年？
● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● Intro to Hadoop and MapReduce @ ucadicy 有人学过么？ 199块 (转载)
● 能不能在hadoop中用open mpi?
● 转行做data warehouse的问个学习大数据的问题

相关话题的讨论汇总
话题: hadoop话题: job话题: 执行话题: mapreduce话题: 数据

进入Programming版参与讨论

(共1页)

t***0
发帖数: 4

小弟刚接触大数据不久，最近做了一个项目，可以让客户自己制定一些规则然后on
demand提交hadoop mapreduce job对自己的数据做analytics。
一般每个job执行时间从几分钟到几十分钟不等，现在大头希望大幅度缩短执行时间，
我们内部有些主意，比如小的job用uber task， avro代替json，压缩数据什么的，
准备做些poc。
还有什么其他办法或者替代技术能大幅缩短batchjob执行时间的？比如spark，对只迭
代一次的运行有没有比hadoop mapreduce快很多

x*******1
发帖数: 28835

spark 不是号称比MapR快10000倍。都cache 内存里面。不用每次I/O写到文件

(共1页)

进入Programming版参与讨论

相关主题
● 转行做data warehouse的问个学习大数据的问题
● Flink Sparks Next Wave of Distributed Data Processing
● MapReduce 的思想是怎么发明的？
● 在Hadoop 2.7上如何实现 MapReduce Job Chaining？
● big data,菜凉?
● 我要做一个Java演示系统，用哪些前台技术比较好？
● Hadoop写入的主流框架有哪些？
● GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧
● 想画分布式系统架构图，类似Google的mapreduce系统，用什么软件比较好？
● 请教一个graph问题

相关话题的讨论汇总
话题: hadoop话题: job话题: 执行话题: mapreduce话题: 数据

boards