请教可以在线练习 map reduce 的地方？ - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 请教可以在线练习 map reduce 的地方？

相关主题
● 一道大数据题，求最优解。	● MapReduce的面试题
● 简单map reduce mean median，傻逼回答	● Apple 数据科学家面经
● 电话面试一个design问题，看看怎么做	● 关于mahout的一些问题
● 请教MapReduce怎么找median	● hadoop的combiner和partitioner的顺序是什么呢？
● F家onsite面经	● MapReduce 请教：key 能用pair value吗？比如
● mapreduce 初级问题，请各位大牛指点	● 电面被问到hadoop了
● median of N^2 numbers across N machines	● 问一个大数据处理问题
● map reduce word count	● 写一段如何准备large-scale system design的面试吧

相关话题的讨论汇总
话题: key话题: def话题: mapper话题: value话题: mapreduce

进入JobHunting版参与讨论

1

(共1页)

a***y 发帖数: 50	1 谢谢大牛指点了！拜谢～～
c********r 发帖数: 286	2 有这样的地方么？【在 a***y 的大作中提到】 : 谢谢大牛指点了！拜谢～～
w******p 发帖数: 166	3 http://jsmapreduce.com/
j****y 发帖数: 684	4 为啥我听人说，其实人家最关心的是到底处理过多大的数据，否则数据不大，简单的程序不难写吧。难的是规模很大，怎么处理的问题。所以说有什么大的数据吗？【在 w******p 的大作中提到】 : http://jsmapreduce.com/
j****y 发帖数: 684	5 不过这网页确实不错，简单的可以run 【在 w******p 的大作中提到】 : http://jsmapreduce.com/
s*******r 发帖数: 2697	6 可以自己装个hadoop 如果只是想测试一些简单的python/perl写的mapper/reducer脚本是否work 什么都不用装 linux下通过管道测试就行了细节可以查阅大象书中hadoop streaming一节
y******u 发帖数: 804	7 如果想连连mapreduce算法，下面python script能模拟 MapReduce.py import json class MapReduce: def __init__(self): self.intermediate = {} self.result = [] def emit_intermediate(self, key, value): self.intermediate.setdefault(key, []) self.intermediate[key].append(value) def emit(self, value): self.result.append(value) def execute(self, data, mapper, reducer): for line in data: record = json.loads(line) mapper(record) for key in self.intermediate: reducer(key, self.intermediate[key]) #jenc = json.JSONEncoder(encoding='latin-1') jenc = json.JSONEncoder() for item in self.result: print jenc.encode(item) wordcount.py import MapReduce import sys """ Word Count Example in the Simple Python MapReduce Framework """ mr = MapReduce.MapReduce() # ============================= # Do not modify above this line def mapper(record): # key: document identifier # value: document contents key = record[0] value = record[1] words = value.split() for w in words: mr.emit_intermediate(w, 1) def reducer(key, list_of_values): # key: word # value: list of occurrence counts total = 0 for v in list_of_values: total += v mr.emit((key, total)) # Do not modify below this line # ============================= if __name__ == '__main__': inputdata = open(sys.argv[1]) mr.execute(inputdata, mapper, reducer)

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 写一段如何准备large-scale system design的面试吧	● F家onsite面经
● 请问有朋友了解Continuuity这家公司么	● mapreduce 初级问题，请各位大牛指点
● 发现一个单独测试Mapper和reducer的方式	● median of N^2 numbers across N machines
● 职位和 candidate 数量的关系	● map reduce word count
● 一道大数据题，求最优解。	● MapReduce的面试题
● 简单map reduce mean median，傻逼回答	● Apple 数据科学家面经
● 电话面试一个design问题，看看怎么做	● 关于mahout的一些问题
● 请教MapReduce怎么找median	● hadoop的combiner和partitioner的顺序是什么呢？

相关话题的讨论汇总
话题: key话题: def话题: mapper话题: value话题: mapreduce

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)