由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 请教可以在线练习 map reduce 的地方?
相关主题
一道大数据题,求最优解。MapReduce的面试题
简单map reduce mean median, 傻逼回答Apple 数据科学家面经
电话面试一个design问题,看看怎么做关于mahout的一些问题
请教MapReduce怎么找medianhadoop的combiner和partitioner的顺序是什么呢?
F家onsite面经MapReduce 请教:key 能用pair value吗?比如
mapreduce 初级问题,请各位大牛指点电面被问到hadoop了
median of N^2 numbers across N machines问一个大数据 处理问题
map reduce word count写一段如何准备large-scale system design的面试吧
相关话题的讨论汇总
话题: key话题: def话题: mapper话题: value话题: mapreduce
进入JobHunting版参与讨论
1 (共1页)
a***y
发帖数: 50
1
谢谢大牛指点了!拜谢~~
c********r
发帖数: 286
2
有这样的地方么?

【在 a***y 的大作中提到】
: 谢谢大牛指点了!拜谢~~
w******p
发帖数: 166
j****y
发帖数: 684
4
为啥我听人说,其实人家最关心的是到底处理过多大的数据,否则数据不大,简单的程
序不难写吧。
难的是规模很大,怎么处理的问题。所以说有什么大的数据吗?

【在 w******p 的大作中提到】
: http://jsmapreduce.com/
j****y
发帖数: 684
5
不过这网页确实不错,简单的可以run

【在 w******p 的大作中提到】
: http://jsmapreduce.com/
s*******r
发帖数: 2697
6
可以自己装个hadoop
如果只是想测试一些简单的python/perl写的mapper/reducer脚本是否work
什么都不用装 linux下通过管道测试就行了
细节可以查阅大象书中hadoop streaming一节
y******u
发帖数: 804
7
如果想连连mapreduce算法,下面python script能模拟
MapReduce.py
import json
class MapReduce:
def __init__(self):
self.intermediate = {}
self.result = []
def emit_intermediate(self, key, value):
self.intermediate.setdefault(key, [])
self.intermediate[key].append(value)
def emit(self, value):
self.result.append(value)
def execute(self, data, mapper, reducer):
for line in data:
record = json.loads(line)
mapper(record)
for key in self.intermediate:
reducer(key, self.intermediate[key])
#jenc = json.JSONEncoder(encoding='latin-1')
jenc = json.JSONEncoder()
for item in self.result:
print jenc.encode(item)
wordcount.py
import MapReduce
import sys
"""
Word Count Example in the Simple Python MapReduce Framework
"""
mr = MapReduce.MapReduce()
# =============================
# Do not modify above this line
def mapper(record):
# key: document identifier
# value: document contents
key = record[0]
value = record[1]
words = value.split()
for w in words:
mr.emit_intermediate(w, 1)
def reducer(key, list_of_values):
# key: word
# value: list of occurrence counts
total = 0
for v in list_of_values:
total += v
mr.emit((key, total))
# Do not modify below this line
# =============================
if __name__ == '__main__':
inputdata = open(sys.argv[1])
mr.execute(inputdata, mapper, reducer)
1 (共1页)
进入JobHunting版参与讨论
相关主题
写一段如何准备large-scale system design的面试吧F家onsite面经
请问有朋友了解Continuuity这家公司么mapreduce 初级问题,请各位大牛指点
发现一个单独测试Mapper和reducer的方式median of N^2 numbers across N machines
职位和 candidate 数量的关系map reduce word count
一道大数据题,求最优解。MapReduce的面试题
简单map reduce mean median, 傻逼回答Apple 数据科学家面经
电话面试一个design问题,看看怎么做关于mahout的一些问题
请教MapReduce怎么找medianhadoop的combiner和partitioner的顺序是什么呢?
相关话题的讨论汇总
话题: key话题: def话题: mapper话题: value话题: mapreduce