前几天有个朋友发过一个总结大量数据处理问题的帖子，怎么找不到了？ - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 前几天有个朋友发过一个总结大量数据处理问题的帖子，怎么找不到了？

相关主题
● 大数据量，海量数据处理方法总结转自兵马俑bbs	● 一个design题
● 如何秒杀99%的海量数据处理面试题	● 海量ip计数的另一种解法
● 有人知道这本书吗？	● 面试奇葩经历，考官是个GAY
● 看到有人要海量数据处理的书	● 问下，前几天有个大牛分享自己的blog，都是技术问题和分析的
● 海量数据处理的题目	● 大学群里真好玩 (转载)
● 关于设计问题的范围	● 问一道老题
● 明天面apple, 求bless	● 曾经fail掉的一个电话面试以及题目
● 请教一个海量数据处理的题	● MS intern 电面被拒，附上面试过程

相关话题的讨论汇总
话题: 帖子话题: 总结话题: 数据处理话题: 问题话题: 发过

进入JobHunting版参与讨论

1

(共1页)

s**********h 发帖数: 19	1 有热心人给个链接吗？
s*********g 发帖数: 849	2 另外我强力推荐这篇帖子, 以前贴过但是很快沉了发信人: phylips (星星\|\|一年磨十剑), 信区: Algorithm 标题: 大数据量，海量数据处理方法总结发信站: 兵马俑BBS (Thu Nov 26 16:32:38 2009), 本站(bbs.xjtu.edu.cn) 最近有点忙，稍微空闲下来，发篇总结贴。大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。 1.Bloom filter 适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集基本原理及要点：对于原理来说很简单，位数组+k个独立hash函数。将hash函数对应的值的位数组置1，查找时如果发现所有hash函数对应位都是1说明存在，很明显这个过程并不保证查
s**********h 发帖数: 19	3 张老三兄, 谢谢啦！
w******1 发帖数: 520	4 谢谢好帖子啊 ============== ================ 认真地看了，还看不明白
g***3 发帖数: 2304	5 mark下
c******f 发帖数: 2144	6 正需要这个呢非常感谢！

1

(共1页)

进入JobHunting版参与讨论

相关主题
● MS intern 电面被拒，附上面试过程	● 海量数据处理的题目
● 微软onsite	● 关于设计问题的范围
● 一个google面试题	● 明天面apple, 求bless
● 在线紧急求助一道system design面试题，面经内附	● 请教一个海量数据处理的题
● 大数据量，海量数据处理方法总结转自兵马俑bbs	● 一个design题
● 如何秒杀99%的海量数据处理面试题	● 海量ip计数的另一种解法
● 有人知道这本书吗？	● 面试奇葩经历，考官是个GAY
● 看到有人要海量数据处理的书	● 问下，前几天有个大牛分享自己的blog，都是技术问题和分析的

相关话题的讨论汇总
话题: 帖子话题: 总结话题: 数据处理话题: 问题话题: 发过

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)