问个问题 (large-scale question) - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 问个问题 (large-scale question)

相关主题
● find top K most occurring words in streaming data 这题怎么做比较好	● 2-sum 用hash table实现的问题
● 新手问个问题：用C面试怎么用hash呀	● 马上要去G onsite了，求助个问题
● Interview Question I Got	● 平果口头奥佛加面筋，请牛人指点
● storm和spark, maprduce比有什么优势？	● 亚马逊电面一
● 一个google面试题	● 大家总是说工作中不会用到算法
● 在线紧急求助一道system design面试题，面经内附	● 回馈本版，发个cisco面经
● 如何秒杀99%的海量数据处理面试题	● [合集] 一道CS面试题
● HashTable相关的面试题	● 大量数据里面找top 100

相关话题的讨论汇总
话题: 问个问题话题: scale话题: large话题: question话题: 文件

进入JobHunting版参与讨论

1

(共1页)

B*****p 发帖数: 339	1 如果有很多很多streaming的data,想统计有多少unique的entry hashtable存不了太多,因为内存限制,如果允许一定的error,怎么统计想了好多方案,貌似都不是怎么nice. 欢迎大侠们讨论
w***g 发帖数: 5958	2 bloom filter 【在 B*****p 的大作中提到】 : 如果有很多很多streaming的data,想统计有多少unique的entry : hashtable存不了太多,因为内存限制,如果允许一定的error,怎么统计 : 想了好多方案,貌似都不是怎么nice. 欢迎大侠们讨论
t******e 发帖数: 1293	3 一看到说允许一定错误的，马上就要说bloom filter了【在 w***g 的大作中提到】 : bloom filter
y*********e 发帖数: 518	4 可以用类似外部文件排序的方法解。对于目标文件，读取每一行，然后计算hash。根据hash值，把这一行存入到不同的文件中。这一步完成之后，就相当于把文件拆成数个小文件了。每一个就可以用hashtable解。对整个文件读2遍，写2遍。优化的方案可以有：用2颗硬盘，一个专门读，一个专门写。若是有多个机器，可以用 MapReduce。【在 B*****p 的大作中提到】 : 如果有很多很多streaming的data,想统计有多少unique的entry : hashtable存不了太多,因为内存限制,如果允许一定的error,怎么统计 : 想了好多方案,貌似都不是怎么nice. 欢迎大侠们讨论
B*****p 发帖数: 339	5 这个也是我的第一反应, 然后立马错了... 虽然我不知道哥好得办法,但是人家说不知道为啥要用bloom filter,不能解决问题【在 t******e 的大作中提到】 : 一看到说允许一定错误的，马上就要说bloom filter了

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 大量数据里面找top 100	● 一个google面试题
● an interview question in careercup	● 在线紧急求助一道system design面试题，面经内附
● 昨天面试MS	● 如何秒杀99%的海量数据处理面试题
● Hash table in Java	● HashTable相关的面试题
● find top K most occurring words in streaming data 这题怎么做比较好	● 2-sum 用hash table实现的问题
● 新手问个问题：用C面试怎么用hash呀	● 马上要去G onsite了，求助个问题
● Interview Question I Got	● 平果口头奥佛加面筋，请牛人指点
● storm和spark, maprduce比有什么优势？	● 亚马逊电面一

相关话题的讨论汇总
话题: 问个问题话题: scale话题: large话题: question话题: 文件

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)