s**********h 发帖数: 19 | | s*********g 发帖数: 849 | 2 另外我强力推荐这篇帖子, 以前贴过但是很快沉了
发信人: phylips (星星||一年磨十剑), 信区: Algorithm
标 题: 大数据量,海量数据 处理方法总结
发信站: 兵马俑BBS (Thu Nov 26 16:32:38 2009), 本站(bbs.xjtu.edu.cn)
最近有点忙,稍微空闲下来,发篇总结贴。
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一
些涉及到海量数据的公司经常会问到。
下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并
不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。
下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好
的处理方法,欢迎与我讨论。
1.Bloom filter
适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集
基本原理及要点:
对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,
查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查 | s**********h 发帖数: 19 | | w******1 发帖数: 520 | 4 谢谢
好帖子啊
==============
================
认真地看了, 还看不明白 | g***3 发帖数: 2304 | | c******f 发帖数: 2144 | |
|