关于mapreduce的讨论汇总 - 话题女王

全部话题 - 话题: mapreduce

w***g
发帖数: 5958

教授们要找funding混日子，学生要出文章毕业，我们不能怪他们。不过也需要看到一点
，就是学术界做MapReduce的大部分都是扯淡。
上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的，因为MapReduce就
是穷算，甚至都算不上有算法。MapReduce对于SQL而言，就跟汇编语言跟Java的区别类
似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
且从理论上而言，穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
。
然而Mike又错了，因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce，而
分布式数据库系统则一直是阳春白雪无人问津。
为什么？
一个显然的原因是大部分实验室和小公司都无法承受得起高价的分布式数据库系统。对
于他们来说，Hadoop是第一个可用的机群处理平台(MPI只能并行化计算，没法存数据）
。数据库理论再好，大家用不起那也是白搭。但是还有一个重要原因很多人都没有看到
。也是这个原因使得很多研究者发表的论文必然会受到工业界背后的嘲笑。
... 阅读全帖

a*******m
发帖数: 626

来自主题: CS版 - 学术界做mapreduce基本上是扯淡

工业界做分布式数据库的不要太多，特别是互联网公司，五年前就有很多在做了。

教授们要找funding混日子，学生要出文章毕业，我们不能怪他们。不过也需要看到一点
，就是学术界做MapReduce的大部分都是扯淡。
上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的，因为MapReduce就
是穷算，甚至都算不上有算法。MapReduce对于SQL而言，就跟汇编语言跟Java的区别类
似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
且从理论上而言，穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
。
然而Mike又错了，因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce，而
分布式数据库系统则一直是阳春白雪无人问津。
为什么？
一个显然的原因是大部分实验室和小公司都无法承受得起高价的分布式数据库系统。对
于他们来说，Hadoop是第一个可用的机群处理平台(MPI只能并行化计算，没法存数据）
。数据库理论再好，大家用不起那也是白搭。但是还有一个重要原因很多人都没... 阅读全帖

w***g
发帖数: 5958

来自主题: CS版 - 学术界做mapreduce基本上是扯淡

a*******m
发帖数: 626

来自主题: CS版 - 学术界做mapreduce基本上是扯淡

a*****s
发帖数: 1121

来自主题: JobHunting版 - 还有公司会在新项目选择mapReduce吗？

spark 后台也用的是mapreduce的原理，甚至很多类都是直接拿hadoop的用的。只能说
spark是mapreduce的内存优化版。可惜了hortonworks不知道继续优化mapreduce来给用
户免费午餐，并且直接打败databricks，而是搞什么tez，缺乏战略眼光。如果继续优
化mapreduce，现有MR用户不用修改源代码就可以得到10倍以上的性能提升，谁还去用
spark。
有时候不是对手多强大，而是自己多傻逼。

c*****a
发帖数: 1638

来自主题: Quant版 - 请问MapReduce在finance, 尤其是high frequency用得多吗？

mapReduce是以牺牲性能换取硬件平台的高扩展性。high frequency绝对不能用这个
从纯粹的计算来说mapReduce肯定比并行慢（甚至慢很多）
mapReduce是用来解决那些简单并行可能处理不了的big data或者对性能不敏感的运算
，比如我知道有人用这个做ML，纯粹就是为了省事，因为写mapReduce比写并行的程序
容易多了

s******c
发帖数: 1920

来自主题: Programming版 - MapReduce 过时了？Google 发布 Cloud Dataflow

MapReduce就相当于云时代的汇编, 再怎么高大上的新东西, 也是绕不开的, 只是有更
高级的抽象而已. 底层还是在跑MapReduce或者MapReduce的变种

c*****a
发帖数: 1638

来自主题: Quant版 - 请问MapReduce在finance, 尤其是high frequency用得多吗？

mapreduce，或者说hadoop这个东西，就是给你一个编程接口，允许你把特定的问题在
非常大的硬件平台上扩展（比如1000个CPU）。
但是调度和通讯是有成本的，所以如果你有一个问题，在一个CPU上面跑50个小时，
mapreduce在10个CPU上面可能要8个小时。另外这个有个基本的性能调度成本，所以基
本上不管你怎么增加扩展，不能低于这个最低成本（这个可能是几秒到几分钟）。所以
这个不能做high frequency
至于backtest或者optimization，只要你能把这个需求转化为mapduce问题，就可以（
不是所有的东西都能用mapduce算的）。这个取决于输入与输出的数据之间的关系。
基本上，mapreduce是很简单的，但是涉及到真正的大数据的时候，需要有些考虑，必
须有很好的程序背景，对于常见API背后的潜在性能有概念。
举个例子，我现在的一个项目，运算的程序并不长，但每次计算，每个语句最后都要运
行几百亿次，那么可能一点点很小的性能差距，最后有巨大的影响。所以所有关于
parse的语句，我都自己写（比如我不会调用Integer.parse，这个API倒不... 阅读全帖

z*****9
发帖数: 86

来自主题: JobHunting版 - Amazon组选择：EC2还是Elastic MapReduce

上上礼拜四onsite，总共七轮八个人（有一轮来了两个人，但是有个说他是来打酱油听
审的，没怎么说话），有两个组的manager。上礼拜四recruitor给电话说两个组都愿意
要，所以安排今天两个manager各和我再聊30分钟。聊过后recruitor发邮件说今天6点
前必须作出选择。请大家给点意见，哪个组好些？
貌似EC2做的和网络以及load balance相关多些，MapReduce致力于在EC 2上作
MapReduce和Hadoop的开发。

t*********h
发帖数: 941

来自主题: JobHunting版 - MapReduce 请教：key 能用pair value吗？比如

mapreduce里的value你可以放任意值
不过你这6GB 虽便用什么语言都能瞬时搞定无需mapreduce

20
,

d********i
发帖数: 582

来自主题: JobHunting版 - G家mapreduce一道题

题目：MapReduce(filter a collection of documents, the words which occur more
than 5000 times)
小弟从来没学过mapreduce, 不知道从何下手写这个代码？有大牛帮忙吗？

B********4
发帖数: 7156

来自主题: JobHunting版 - MapReduce的面试题

求教一道关于MapReduce的面试题：
有一个非常大的（>1TB)的String,放在Hadoop的多个Data Nodes上。如何用MapReduce
来reverse该String？

R*******n
发帖数: 162

来自主题: CS版 - 学术界做mapreduce基本上是扯淡

何止是mapreduce。你看看这10年来计算机界里出现的东西，有哪些是学术界提出来
的？特别是系统方面的。
每次看学术界里讨论 mapreduce, search, social network 的文章，那是幼稚得不行
呀。没data, 没机器，只能扯淡。

m****o
发帖数: 182

来自主题: CS版 - 学术界做mapreduce基本上是扯淡

学术界做mapreduce的意义还在于对复杂算法的线性化转换。对于一个十几万维，几百
万行的矩阵算支持向量机，如果用的是非线性kernel，那计算时间在单机上可以耗时两
周之久。这时候就显得如果可以近似做mapreduce有多么重要。当然这个例子可能不太
好，有经验的可能一看就知道矩阵很有可能是稀疏矩阵，一般线性kernel就可以了。

R*******n
发帖数: 162

来自主题: CS版 - 学术界做mapreduce基本上是扯淡

m****o
发帖数: 182

来自主题: CS版 - 学术界做mapreduce基本上是扯淡

p*****2
发帖数: 21240

来自主题: Programming版 - 关于mapreduce一问

没看明白。我的问题是在FP里面的map函数，跟mapreduce里边的map函数是等同的吗？
或者说FP里的map函数能完成mapreduce里的map函数吗？我看scala好像完成不了。你说
的这个意思是可以完成吗？

A*******t
发帖数: 443

来自主题: Programming版 - 关于mapreduce一问

google mapreduce里面的map和reduce的想法是从fp里面来的
不过一般fp本身不会被编译到mapreduce的一个work上

X*K
发帖数: 87

来自主题: Programming版 - 关于mapreduce一问

mapreduce里的map概念是从FP里面的map，但我觉得不是一回事，mapreduce里的map在c
++里是用函数指针，在java里是用strategy pattern，用scala的map应该也是可以的，
前提是用scala实现一个类似hadoop的framework，但感觉这样实现效率可能有问题。

t**r
发帖数: 3428

来自主题: Programming版 - Intro to Hadoop and MapReduce @ ucadicy 有人学过么？ 199块 (转载)

【以下文字转载自 Java 讨论区】
发信人: taar (taar), 信区: Java
标题: Intro to Hadoop and MapReduce @ ucadicy 有人学过么？ 199块
发信站: BBS 未名空间站 (Sun Oct 12 22:13:12 2014, 美东)
Intro to Hadoop and MapReduce @ ucadicy 有人学过么？ 199块
怎么样？

c*****z
发帖数: 1211

来自主题: Programming版 - MapReduce 的思想是怎么发明的？

你是说hadoop为什么没有。mapreduce是一个算法，哪怕放磁带里也是mapreduce。

c**********5
发帖数: 653

来自主题: Programming版 - Mapreduce Java (转载)

【以下文字转载自 DataSciences 讨论区】
发信人: creageng2005 (creageng2005 (万米）), 信区: DataSciences
标题: Mapreduce Java
发信站: BBS 未名空间站 (Fri Jan 20 12:55:10 2017, 美东)
I just learned Mapreduce, which needed Java programming.
I have experiences in C++. Do I need to invest time in Java? Really do not
have time to pick up another language again

m******6
发帖数: 599

来自主题: JobHunting版 - Amazon组选择：EC2还是Elastic MapReduce

congrats!
ec2 is more infrastructure level
mapreduce is app level
which one you like better?

z*****9
发帖数: 86

来自主题: JobHunting版 - Amazon组选择：EC2还是Elastic MapReduce

有点想去MapReduce，感觉做得广些，不用搞到底层的，但是还是很犹豫不决啊，哪个
会更加有意思些？我Java和C的experience都有，实在不知道该选哪个

g*********e
发帖数: 14401

来自主题: JobHunting版 - why mapReduce is so hot recently?

I see a lot of people mentioning mapReduce in their interview posts. Is
there any material for us newbies to quick catch some key points of it?

g*****e
发帖数: 282

来自主题: JobHunting版 - 问有没有mapreduce，hadoop，hbase经验怎么处理？

作为有几年工作经验的backend sde，还是没做mapreduce之类的实际经验。面backend
system position总被问到这些，老实说没做过，很有兴趣学。有什么妙的回答么？

g*****e
发帖数: 282

来自主题: JobHunting版 - 问有没有mapreduce，hadoop，hbase经验怎么处理？

这个，稍微问一下就知道几斤几两吧，临时抱佛脚的水平。比如，以我自己做民工的经
验，讨论一下db transaction的latency和处理，就知道对方这方面的经验了。
mapreduce，hadoop这种东西不是家里两个电脑可以捣鼓的吧。。。开发个ios iphone
app自学一个月差不多可以吹一下了。

r***y
发帖数: 4379

来自主题: JobHunting版 - 问有没有mapreduce，hadoop，hbase经验怎么处理？

--mapreduce，hadoop这种东西不是家里两个电脑可以捣鼓的吧
为啥不行呢
弄个linux, 在 virtual machine 上也可以, 上个 hadoop , 有空就折腾折腾

iphone

b**********5
发帖数: 7881

来自主题: JobHunting版 - MapReduce 请教：key 能用pair value吗？比如

唉，我再来抱怨一下， IT真的是青春饭。我以前的学校，读书的时候，
mapreduce这个词，听都没听说过，然后工作里，也从来没用过。 resume上，还
不如一个大学生。。。

W***o
发帖数: 6519

来自主题: JobHunting版 - MapReduce 请教：key 能用pair value吗？比如

再请教一下大家：
下面是我的mapper code:
public class CrimeMapper extends Mapper IntWritable>
{
protected static final int DATE_INDEX = 2;
protected static final int CRIME_TYPE_INDEX = 5; // column index
protected static final int YEAR_INDEX = 17; // column index

private static final Log _log = LogFactory.getLog(CrimeMapper.class);
private static final IntWritable ONE = new IntWritable(1);

@Override
public void map(LongWritable key, Text... 阅读全帖

s******c
发帖数: 1920

来自主题: JobHunting版 - G家mapreduce一道题

参考hadoop的mapreduce
https://developer.yahoo.com/hadoop/tutorial/module4.html

o*****n
发帖数: 189

来自主题: JobHunting版 - G家mapreduce一道题

以前看过MR, 都不记得了。瞎写一个
#MapReduce(filter a collection of documents, the words which occur more than
5000 times)
n=5000
dic=dict()
with open('.\MapReduce_filter_repeating_words.txt', 'r') as f:
for line in f:
A=line.split()
for a in A:
if a in dic.keys():
dic[a] +=1
else: dic[a]=1
for k in dic.keys():
if dic[k] >= n: print('-', k,'-' ,'show up ' , dic[k],' times')

Z**0
发帖数: 1119

来自主题: JobHunting版 - G家mapreduce一道题

是问你mapreduce的idea。
map, reduce, filter/emit.

s******c
发帖数: 1920

来自主题: JobHunting版 - 求推荐点MapReduce的Paper

google后来发的flumejava 那篇，
其实就是今年io上包装出来的内个下一代mapreduce，dataflow

f******y
发帖数: 54

来自主题: JobHunting版 - 问个MapReduce面试题

“data set很skew”，这个现象准确描述是，“相同key的record太多”，
如果是这样的话，这个不关partition问题，因为本质上“相同key的“的数据肯定要在
一个reduce里面的，不管你partition怎么写。
那么怎么解决？
1,combiner确实是个方法，比如以word count为例子，
《hello, 1》,《hello, 1》,《hello, 1》可以合并一条《hello, 3》
2,combiner方法不是什么地方都可以使用，有些不能合并的，就不能使用combiner，那
怎么办？
其实没什么好办法，可能你最开始设计上就有问题而导致skew，也许可以通过多轮
mapreduce解决，这个扯远了。
lz以前没搞过，要你设计确实有点为难。
继续努力，加油！

b**********5
发帖数: 7881

来自主题: JobHunting版 - 问个MapReduce面试题

how does one do partial aggregation？let's say the map functions creates
like 1 gazillion key "k", so the data skews heavily on key "k", and one
reducer gets 1 gazillion elements, and can't handle it.
how do u do partial aggregation on those 1 gazillion key "k"? aggregate half
of them first? how do u aggregate half of them? where does the other half
go?
我稍微google了一下mapreduce data skew，一些paper好像都是要custom partition
，先估计一下map出来的key的distribution。。。

use
by

r*****s
发帖数: 1815

来自主题: JobHunting版 - MapReduce的面试题

cut into segments with serial number
reverse each segment and then
sort in reverse order

MapReduce

发帖数: 1

来自主题: JobHunting版 - 还有公司会在新项目选择mapReduce吗？

搞big data的大牛们来说说还有公司会在新项目选择mapReduce吗？相对spark是不是完
全处于被替代的位置？除了spark你们还在用什么？

p*********g
发帖数: 2998

来自主题: JobHunting版 - 还有公司会在新项目选择mapReduce吗？

if file size is huge big and your cluster is huge small, the data cannot be
saved in the memory at all. Mapreduce is much faster than spark

n**a
发帖数: 12

来自主题: JobMarket版 - Amazon.com is looking for experienced engineers with MapReduce/Hadoop/Lucene

Hello,
Amazon.com is looking for experienced engineers with MapReduce/Hadoop/Lucene
,Distributed and scalable systems background. Please send your resumes to
n******[email protected]
Many positions open, location- Seattle, WA
Job description: SDE
Software Dev Engineer, Product Ads
Product Ads is a high-profile, strategic business unit, with support and
interest from all parts of Amazon and top management. We are a highly
motivated, collaborative and fun-loving team building a high growth business
. ... 阅读全帖

l*****y
发帖数: 344

来自主题: Database版 - Hadoop/MapReduce的市场需求

请教，大家知道现在对懂HADOOP／MAPREDUCE的，市场需求是不是很大？
如果有机会，有没有必要去学一些对BIG DATA和HADOOP方面的内容？对找工作有多少帮
助？先谢谢了！

W***o
发帖数: 6519

来自主题: Database版 - MapReduce 请教：key 能用pair value吗？比如 (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: Wardo (Wardo), 信区: JobHunting
标题: MapReduce 请教：key 能用pair value吗？比如
发信站: BBS 未名空间站 (Fri Oct 18 01:17:05 2013, 美东)
我在分析一个犯罪数据，从2001年到2013年的，有大概6GB， CSV格式。里面大概有20
个columns,但是我只对其中几栏需要分析。比如我想分析每种犯罪在每年的数量，所以
我想能否用这样一个key: ，也就是犯罪类型和年份这个pair作为key,
然后这个key所对应的value就是sum of the occurrences of theft in 2005.
请教一下大侠这种是否可行？有没有更好的方法？谢谢，10个包子感谢

H******7
发帖数: 1728

来自主题: Java版 - 现在什么CLOUD COMPUTING,HADOOP,MAPREDUCE,GFS,HIVE什么的,火的一塌糊涂`~大牛来分析分析~

现在什么CLOUD COMPUTING,HADOOP,MAPREDUCE,GFS,HIVE什么的,火的一塌糊涂`~大牛来
分析分析~
再这方面下下功夫,对找工作帮助大不大?

t**r
发帖数: 3428

来自主题: Java版 - Intro to Hadoop and MapReduce @ ucadicy 有人学过么？ 199块

Intro to Hadoop and MapReduce @ ucadicy 有人学过么？ 199块
怎么样？

I******c
发帖数: 163

来自主题: Programming版 - GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧

最近两年ipdps上有几篇关于在gpu上实现mapreduce的文章。你可以看看。实用不实用
就不知道了。

s*****n
发帖数: 5488

来自主题: Programming版 - GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧

我也是从 mapreduce看过来的。具体的慢慢研究吧。

p*****2
发帖数: 21240

来自主题: Programming版 - 关于mapreduce一问

我是没想明白。map，reduce不是从FP来的吗？但是FP的map跟mapreduce的map是
equivalent的吗？

p*****2
发帖数: 21240

来自主题: Programming版 - 关于mapreduce一问

在c
如果不考虑distributed的话，只考虑single thread。
mapreduce里的map
输入：key/value , 输出： key/value (key 可以重复）
那么scala里就是Map了。
Map.map 这个函数可以输出另外一个Map，并且存在duplicate key吗？或者一个key对
应一个list也可以。我看了看document貌似不行呀。或者其他FP语言可以做到吗？
我主要是这个不太明白。

c*********e
发帖数: 16335

来自主题: Programming版 - Google的那个mapreduce的paper感觉基本是看过这类paper里最简单的了

mapreduce不就是map然后reduce吗，phd就写点这玩艺，就能毕业？

p*****2
发帖数: 21240

来自主题: Programming版 - 春运网站架构之争 MapReduce vs MPI

goodbug的solution跟mapreduce是啥关系呀？LZ能zkss吗？

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天