how to get the top k queries from a search log of terabytes of data? - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - how to get the top k queries from a search log of terabytes of data?

相关主题
● 问道Twitter面试题	● G家面题
● google phone (failed)	● get Top 1million most frequent entries in past 24 hour
● 职业杯上一个DATABASE题目。	● stream palindrome
● code review 求指导，附某知名游戏公司offline test题	● 大量数据里面找top 100
● Q：实现上一个，下一个，产品功能	● 新鲜面试题
● c++!	● Job opening in CT: Software Quality Engineer
● 一道题	● 贴一下我google第一轮店面的题目
● 有包子，花街的一道题，请指教	● Rabin-Karp算法对不定长的query set怎么办?

相关话题的讨论汇总
话题: queries话题: terabytes话题: top话题: data话题: log

进入JobHunting版参与讨论

1

(共1页)

t*****e 发帖数: 53	1 Assume the data cannot fit in memory. You can provide either exact or approximate solutions. Please provide more details about your solution.
i***h 发帖数: 12655	2 近似：内存有多少用多少，每个记录出现次数当新的记录进来，内存不够了，踢掉最少最老的记录精确：用外部文件存结果？
b*******d 发帖数: 750	3 哥也被问到这道题了，略有不同，给出了incoming query的distribution的曲线，qps 是几千这样子。这个system有三个api： 1）getTopTenMillionInPastHour() 2) isInTopTenMilionInPastHour() 3) notifyWhenJoinOrRemovedFromTopTenMillionInPastHour() 自己来architect系统，定义service能提供数据的精度。我当时给的是个多台机器的架构。我觉得是旧data每秒钟都在产生（任何当前时间进行的api call，准确来说，1小时零1秒前的数据都是旧的，对算top10millioninPastHour 没有意义），但几乎没有任何系统在一秒钟内可以purge掉这么多的旧数据，所以就要定义一个精度。比如，semantics是“我能保证给结果是精确的，但是有个最多20分钟的delay”，或者“我不能保证结果是100%精确的，但是我能最新的query能够实时的反应在结果中，并且返回的结果和真值有90%的重合”。其实就是说consistency，availability，partition/sharding，只能选两样。
w****x 发帖数: 2483	4 比如找top 10 queries, 把大文件hash分成200个小文件, 每个小文件可以放入内存. 每个小文件取top 5 queries, 从1000个query中找出前10个, 除非很巧, 基本可以得出 top 10 【在 t*****e 的大作中提到】 : Assume the data cannot fit in memory. You can provide either exact or : approximate solutions. Please provide more details about your solution.
N**n 发帖数: 832	5 大神你还没回答我你从哪儿找到的800道题呢【在 w****x 的大作中提到】 : : 比如找top 10 queries, 把大文件hash分成200个小文件, 每个小文件可以放入内存. : 每个小文件取top 5 queries, 从1000个query中找出前10个, 除非很巧, 基本可以得出 : top 10
t*****e 发帖数: 53	6 踢掉最少最老的记录 But those queries might showed again in the future? they might be in the list of top 10 queries. 【在 i***h 的大作中提到】 : 近似： : 内存有多少用多少，每个记录出现次数 : 当新的记录进来，内存不够了，踢掉最少最老的记录 : 精确： : 用外部文件存结果？
t*****e 发帖数: 53	7 Can you explain more detail about your system? Particularly, how you can get the 90% accuracy? qps top10millioninPastHour 【在 b*******d 的大作中提到】 : 哥也被问到这道题了，略有不同，给出了incoming query的distribution的曲线，qps : 是几千这样子。这个system有三个api： : 1）getTopTenMillionInPastHour() : 2) isInTopTenMilionInPastHour() : 3) notifyWhenJoinOrRemovedFromTopTenMillionInPastHour() : 自己来architect系统，定义service能提供数据的精度。 : 我当时给的是个多台机器的架构。我觉得是旧data每秒钟都在产生（任何当前时间进行 : 的api call，准确来说，1小时零1秒前的数据都是旧的，对算top10millioninPastHour : 没有意义），但几乎没有任何系统在一秒钟内可以purge掉这么多的旧数据，所以就要 : 定义一个精度。比如，semantics是“我能保证给结果是精确的，但是有个最多20分钟

1

(共1页)

进入JobHunting版参与讨论

相关主题
● Rabin-Karp算法对不定长的query set怎么办?	● Q：实现上一个，下一个，产品功能
● 两道面试题	● c++!
● Google电面题	● 一道题
● 非典型bloomberg Onsite 面经	● 有包子，花街的一道题，请指教
● 问道Twitter面试题	● G家面题
● google phone (failed)	● get Top 1million most frequent entries in past 24 hour
● 职业杯上一个DATABASE题目。	● stream palindrome
● code review 求指导，附某知名游戏公司offline test题	● 大量数据里面找top 100

相关话题的讨论汇总
话题: queries话题: terabytes话题: top话题: data话题: log

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)