大数据量，海量数据处理方法总结转自兵马俑bbs - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 大数据量，海量数据处理方法总结转自兵马俑bbs

相关主题
● 前几天有个朋友发过一个总结大量数据处理问题的帖子，怎么找不到了？	● 二维排序数组的查找正解是O(M+N)的复杂度吗
● 如何秒杀99%的海量数据处理面试题	● 请教一个函数默认返回值的问题，纠结很久了
● universial hashing 一问	● G电面
● tree vs hash	● 请教一个题目
● 攒RP,抱一个G公司的电话面试,顺便求祝福!	● 考古到一道题
● 一个查找算法题	● 2轮Amazon电面
● 求一面试题解答	● 电面结束之后
● 讨论一道算法	● 讨论一题，去除有序数组的重复元素

相关话题的讨论汇总
话题: 方法话题: 数据话题: 海量话题: 处理话题: 兵马俑

进入JobHunting版参与讨论

1

(共1页)

m*****f 发帖数: 1243	1 发信人: phylips (星星\|\|一年磨十剑), 信区: Algorithm 标题: 大数据量，海量数据处理方法总结发信站: 兵马俑BBS (Thu Nov 26 16:32:38 2009), 本站(bbs.xjtu.edu.cn) 最近有点忙，稍微空闲下来，发篇总结贴。大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。 1.Bloom filter 适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集基本原理及要点：对于原理来说很简单，位数组+k个独立hash函数。将hash函数对应的值的位数组置1，查找时如果发现所有hash函数对应位都是1说明存在，很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个
g*******y 发帖数: 1930	2 这个太强了，一定要收藏～
m*****f 发帖数: 1243	3 是的，今天看到，不敢藏私... 【在 g*******y 的大作中提到】 : 这个太强了，一定要收藏～
g*******y 发帖数: 1930	4 呵呵，你太无私了！【在 m*****f 的大作中提到】 : 是的，今天看到，不敢藏私...
s*******n 发帖数: 97	5 真是强人呀,谢了先
a****n 发帖数: 1887	6 感谢分享，：）另外boost库现在对mapreduce有支持.
a*****p 发帖数: 189	7 这个一定要顶，好东西。
k***e 发帖数: 556	8 zan! 我猜你是西交毕业的：）【在 m*****f 的大作中提到】 : 发信人: phylips (星星\|\|一年磨十剑), 信区: Algorithm : 标题: 大数据量，海量数据处理方法总结 : 发信站: 兵马俑BBS (Thu Nov 26 16:32:38 2009), 本站(bbs.xjtu.edu.cn) : 最近有点忙，稍微空闲下来，发篇总结贴。 : 大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一 : 些涉及到海量数据的公司经常会问到。 : 下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并 : 不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。 : 下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好 : 的处理方法，欢迎与我讨论。
m*****f 发帖数: 1243	9 我只是喜欢到处瞎逛...@@ 【在 k***e 的大作中提到】 : zan! : 我猜你是西交毕业的：）
a****l 发帖数: 245	10 顶！

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 讨论一题，去除有序数组的重复元素	● 攒RP,抱一个G公司的电话面试,顺便求祝福!
● 也问一个算法题	● 一个查找算法题
● google电面小结，兼问onsite的准备	● 求一面试题解答
● 请教一道题	● 讨论一道算法
● 前几天有个朋友发过一个总结大量数据处理问题的帖子，怎么找不到了？	● 二维排序数组的查找正解是O(M+N)的复杂度吗
● 如何秒杀99%的海量数据处理面试题	● 请教一个函数默认返回值的问题，纠结很久了
● universial hashing 一问	● G电面
● tree vs hash	● 请教一个题目

相关话题的讨论汇总
话题: 方法话题: 数据话题: 海量话题: 处理话题: 兵马俑

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)