如何用hadoop 析取各种数据？ - JobHunting版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 如何用hadoop 析取各种数据？

相关主题
● 电面被问到hadoop了	● 求问data processing类的题目长啥样
● 想学学Hadoop,从wordcount开始	● median of N^2 numbers across N machines
● hadoop面试和学习总结	● 请教MapReduce怎么找median
● 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？	● F家onsite面经
● 该选哪个方向	● 一道大数据题，求最优解。
● 现在去做hadoop的公司工作还有前途吗？	● 请教可以在线练习 map reduce 的地方？
● [原创] 揭开大数据平台Hadoop的真面目 5分钟包教包会 (转载)	● MapReduce 请教：key 能用pair value吗？比如
● 求问一道用新语言写wordcount的题	● mapreduce 初级问题，请各位大牛指点

相关话题的讨论汇总
话题: mapper话题: height话题: gender话题: 析取话题: hadoop

进入JobHunting版参与讨论

(共1页)

s******e
发帖数: 128

经典hadoop例子也就是wordcount之类的一个数据。很好理解mapper和reduce 该写些什
么。但实际上经常要从log文件中析取所有的各种数据：举个例子：要从一套log文件
中析取average height break down into gender, top 10 sites break down into
phone types, top word break down into adults/kids...。
我想不出这些情况mapper和reduce 该怎么写？

l*n
发帖数: 529

http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patter

【在 s******e 的大作中提到】

: 经典hadoop例子也就是wordcount之类的一个数据。很好理解mapper和reduce 该写些什
: 么。但实际上经常要从log文件中析取所有的各种数据：举个例子：要从一套log文件
: 中析取average height break down into gender, top 10 sites break down into
: phone types, top word break down into adults/kids...。
: 我想不出这些情况mapper和reduce 该怎么写？

p*****2
发帖数: 21240

我觉得现在直接写map reduce的机会其实是很小了。

s******e
发帖数: 128

我就是想着如何把原来的工作和hadoop结合起来。
所要了解一下，原来的工作用hadoop怎么做。
你有答案吗？看了下 icn给的link, 找不到和我相配的design pattern.
难道你们parse log都是为了得到一两类数据吗？
还是我没看懂文章的意思？

【在 p*****2 的大作中提到】

: 我觉得现在直接写map reduce的机会其实是很小了。

s******e
发帖数: 128

那用大数据的人整天在干嘛？

【在 p*****2 的大作中提到】

: 我觉得现在直接写map reduce的机会其实是很小了。

m**i
发帖数: 394

hadoop is just a tool. You need to design a parallel algorithm and then
implement it in hadoop.
First, you need to do paralle reading.
Second, each worker threads needs to computer the to 10 locally.
Then, combine all the results and get the real top 10.

【在 s******e 的大作中提到】

l*n
发帖数: 529

你这些都是counting & summing problems吧，只不过是写mapper/reducer的时候key/
value可能不是单一的field。比如你的mean height over gender，就是gender vs.
height_ONE，height用来summing,ONE用来counting。mapreduce的灵活性不单只是一个
wordcount那么狭隘的。

【在 s******e 的大作中提到】

: 我就是想着如何把原来的工作和hadoop结合起来。
: 所要了解一下，原来的工作用hadoop怎么做。
: 你有答案吗？看了下 icn给的link, 找不到和我相配的design pattern.
: 难道你们parse log都是为了得到一两类数据吗？
: 还是我没看懂文章的意思？

p*****2
发帖数: 21240

hive

【在 s******e 的大作中提到】

: 那用大数据的人整天在干嘛？

h**********y
发帖数: 1293

pig/hive很多复杂逻辑不行的。

【在 p*****2 的大作中提到】

:
: hive

s******e
发帖数: 128

那么我写的mapper到底是去算还是还是<
word: adult>那？
如果我需要写三个mapper分别统计, adult>那不是很重复吗？因为每个mapper都是要把整个log读一遍（我知道大数据会
分成block, 我是指对于每个block来说这三个mapper都要把他从头到尾读一遍为了求自
己的那部分数据）而且如果adult/kid要进一步细分成female/male的话第三个mapper原
本可以建立在第一个mapper的基础上，分开就用不上了。
还有种可能性就是所有东西都放在一个mapper里，那从mapper里输出什么那，反正不是
key:value那样简单了。
Hive 我可以理解。就是用一些象sql那样的语句得到结果。如果逻辑不复杂的话应该可
以考虑。

【在 l*n 的大作中提到】

: 你这些都是counting & summing problems吧，只不过是写mapper/reducer的时候key/
: value可能不是单一的field。比如你的mean height over gender，就是gender vs.
: height_ONE，height用来summing,ONE用来counting。mapreduce的灵活性不单只是一个
: wordcount那么狭隘的。

相关主题
● 现在去做hadoop的公司工作还有前途吗？	● 求问data processing类的题目长啥样
● [原创] 揭开大数据平台Hadoop的真面目 5分钟包教包会 (转载)	● median of N^2 numbers across N machines
● 求问一道用新语言写wordcount的题	● 请教MapReduce怎么找median
进入JobHunting版参与讨论

p*****2
发帖数: 21240

cascalog

【在 h**********y 的大作中提到】

: pig/hive很多复杂逻辑不行的。

p*****2
发帖数: 21240

word:
我们可以分开讨论。我觉得就第一个例子来说，
average height break down into gender
mapper:
gender->height
reducer:
gender-> (sum of height, count of people)
mapper:
gender-> average of height

【在 s******e 的大作中提到】

: 那么我写的mapper到底是去算还是还是<
: word: adult>那？
: 如果我需要写三个mapper分别统计, : adult>那不是很重复吗？因为每个mapper都是要把整个log读一遍（我知道大数据会
: 分成block, 我是指对于每个block来说这三个mapper都要把他从头到尾读一遍为了求自
: 己的那部分数据）而且如果adult/kid要进一步细分成female/male的话第三个mapper原
: 本可以建立在第一个mapper的基础上，分开就用不上了。
: 还有种可能性就是所有东西都放在一个mapper里，那从mapper里输出什么那，反正不是
: key:value那样简单了。
: Hive 我可以理解。就是用一些象sql那样的语句得到结果。如果逻辑不复杂的话应该可

k****r
发帖数: 807

学习学习

l*n
发帖数: 529

你提的问题的确涉及到mapreduce vs. analysis的核心：hdfs通用的分布式同数据的结
构化之间的矛盾。如果你的三种分析是独立的，那么你确实要分开run 3个MR的任务，
文件IO的确是要重复3次；如果三个分析的信息是结构化的，那么可以只搞一个复杂点
的MR任务，只做一次文件IO。这时候就变成了程序执行效率 vs. 程序编写效率之间的
矛盾了。
目前解决的方向好像都是在借鉴传统SQL的思路，比如是columnar storage，就是把结
构化信息拆开让不同组分分别存储，需要的时候再聚合，另一个是MR执行的推迟，让
engine对MR任务进行优化。Hive就是把query转成MR任务，有人说他慢就是因为生成的
MR方案以及query和query之间的优化还不够好吧。

word:

【在 s******e 的大作中提到】

s******e
发帖数: 128

嗯越学越不懂了。

【在 l*n 的大作中提到】

: 你提的问题的确涉及到mapreduce vs. analysis的核心：hdfs通用的分布式同数据的结
: 构化之间的矛盾。如果你的三种分析是独立的，那么你确实要分开run 3个MR的任务，
: 文件IO的确是要重复3次；如果三个分析的信息是结构化的，那么可以只搞一个复杂点
: 的MR任务，只做一次文件IO。这时候就变成了程序执行效率 vs. 程序编写效率之间的
: 矛盾了。
: 目前解决的方向好像都是在借鉴传统SQL的思路，比如是columnar storage，就是把结
: 构化信息拆开让不同组分分别存储，需要的时候再聚合，另一个是MR执行的推迟，让
: engine对MR任务进行优化。Hive就是把query转成MR任务，有人说他慢就是因为生成的
: MR方案以及query和query之间的优化还不够好吧。
:

s******e
发帖数: 128

然后你想说什么？
(不好意思我老延迟)

【在 p*****2 的大作中提到】

:
: word:
: 我们可以分开讨论。我觉得就第一个例子来说，
: average height break down into gender
: mapper:
: gender->height
: reducer:
: gender-> (sum of height, count of people)
: mapper:
: gender-> average of height

c*****a
发帖数: 808

MapReduce Design Patterns by Donald Miner and Adam Shook
你说的，里面都有，我做过类似的东西

(共1页)

进入JobHunting版参与讨论

相关主题
● mapreduce 初级问题，请各位大牛指点	● 该选哪个方向
● 简单map reduce mean median，傻逼回答	● 现在去做hadoop的公司工作还有前途吗？
● map reduce word count	● [原创] 揭开大数据平台Hadoop的真面目 5分钟包教包会 (转载)
● MapReduce的面试题	● 求问一道用新语言写wordcount的题
● 电面被问到hadoop了	● 求问data processing类的题目长啥样
● 想学学Hadoop,从wordcount开始	● median of N^2 numbers across N machines
● hadoop面试和学习总结	● 请教MapReduce怎么找median
● 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？	● F家onsite面经

相关话题的讨论汇总
话题: mapper话题: height话题: gender话题: 析取话题: hadoop

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天