m*****f 发帖数: 1243 | 1 发信人: phylips (星星||一年磨十剑), 信区: Algorithm
标 题: 大数据量,海量数据 处理方法总结
发信站: 兵马俑BBS (Thu Nov 26 16:32:38 2009), 本站(bbs.xjtu.edu.cn)
最近有点忙,稍微空闲下来,发篇总结贴。
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一
些涉及到海量数据的公司经常会问到。
下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并
不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。
下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好
的处理方法,欢迎与我讨论。
1.Bloom filter
适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集
基本原理及要点:
对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,
查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的
结果是100%正确的。同时也不支持删除一个 |
g*******y 发帖数: 1930 | |
m*****f 发帖数: 1243 | 3 是的, 今天看到, 不敢藏私...
【在 g*******y 的大作中提到】 : 这个太强了,一定要收藏~
|
g*******y 发帖数: 1930 | 4 呵呵,你太无私了!
【在 m*****f 的大作中提到】 : 是的, 今天看到, 不敢藏私...
|
s*******n 发帖数: 97 | |
a****n 发帖数: 1887 | 6 感谢分享,:)
另外boost库现在对mapreduce有支持. |
a*****p 发帖数: 189 | |
k***e 发帖数: 556 | 8 zan!
我猜你是西交毕业的 :)
【在 m*****f 的大作中提到】 : 发信人: phylips (星星||一年磨十剑), 信区: Algorithm : 标 题: 大数据量,海量数据 处理方法总结 : 发信站: 兵马俑BBS (Thu Nov 26 16:32:38 2009), 本站(bbs.xjtu.edu.cn) : 最近有点忙,稍微空闲下来,发篇总结贴。 : 大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一 : 些涉及到海量数据的公司经常会问到。 : 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并 : 不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。 : 下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好 : 的处理方法,欢迎与我讨论。
|
m*****f 发帖数: 1243 | 9 我只是喜欢到处瞎逛...@@
【在 k***e 的大作中提到】 : zan! : 我猜你是西交毕业的 :)
|
a****l 发帖数: 245 | |