由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 大数据量,海量数据 处理方法总结 转自兵马俑bbs
相关主题
前几天有个朋友发过一个总结大量数据处理问题的帖子,怎么找不到了?二维排序数组的查找正解是O(M+N)的复杂度吗
如何秒杀99%的海量数据处理面试题请教一个函数默认返回值的问题,纠结很久了
universial hashing 一问G电面
tree vs hash请教一个题目
攒RP,抱一个G公司的电话面试,顺便求祝福!考古到一道题
一个查找算法题2轮Amazon电面
求一面试题解答电面结束之后
讨论一道算法讨论一题,去除有序数组的重复元素
相关话题的讨论汇总
话题: 方法话题: 数据话题: 海量话题: 处理话题: 兵马俑
进入JobHunting版参与讨论
1 (共1页)
m*****f
发帖数: 1243
1
发信人: phylips (星星||一年磨十剑), 信区: Algorithm
标 题: 大数据量,海量数据 处理方法总结
发信站: 兵马俑BBS (Thu Nov 26 16:32:38 2009), 本站(bbs.xjtu.edu.cn)
最近有点忙,稍微空闲下来,发篇总结贴。
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一
些涉及到海量数据的公司经常会问到。
下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并
不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。
下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好
的处理方法,欢迎与我讨论。
1.Bloom filter
适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集
基本原理及要点:
对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,
查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的
结果是100%正确的。同时也不支持删除一个
g*******y
发帖数: 1930
2
这个太强了,一定要收藏~
m*****f
发帖数: 1243
3
是的, 今天看到, 不敢藏私...

【在 g*******y 的大作中提到】
: 这个太强了,一定要收藏~
g*******y
发帖数: 1930
4
呵呵,你太无私了!

【在 m*****f 的大作中提到】
: 是的, 今天看到, 不敢藏私...
s*******n
发帖数: 97
5
真是强人呀,谢了先
a****n
发帖数: 1887
6
感谢分享,:)
另外boost库现在对mapreduce有支持.
a*****p
发帖数: 189
7
这个一定要顶,好东西。
k***e
发帖数: 556
8
zan!
我猜你是西交毕业的 :)

【在 m*****f 的大作中提到】
: 发信人: phylips (星星||一年磨十剑), 信区: Algorithm
: 标 题: 大数据量,海量数据 处理方法总结
: 发信站: 兵马俑BBS (Thu Nov 26 16:32:38 2009), 本站(bbs.xjtu.edu.cn)
: 最近有点忙,稍微空闲下来,发篇总结贴。
: 大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一
: 些涉及到海量数据的公司经常会问到。
: 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并
: 不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。
: 下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好
: 的处理方法,欢迎与我讨论。

m*****f
发帖数: 1243
9
我只是喜欢到处瞎逛...@@

【在 k***e 的大作中提到】
: zan!
: 我猜你是西交毕业的 :)

a****l
发帖数: 245
10
顶!
1 (共1页)
进入JobHunting版参与讨论
相关主题
讨论一题,去除有序数组的重复元素攒RP,抱一个G公司的电话面试,顺便求祝福!
也问一个算法题一个查找算法题
google电面小结,兼问onsite的准备求一面试题解答
请教一道题讨论一道算法
前几天有个朋友发过一个总结大量数据处理问题的帖子,怎么找不到了?二维排序数组的查找正解是O(M+N)的复杂度吗
如何秒杀99%的海量数据处理面试题请教一个函数默认返回值的问题,纠结很久了
universial hashing 一问G电面
tree vs hash请教一个题目
相关话题的讨论汇总
话题: 方法话题: 数据话题: 海量话题: 处理话题: 兵马俑