由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - how to get the top k queries from a search log of terabytes of data?
相关主题
问道Twitter面试题G家面题
google phone (failed)get Top 1million most frequent entries in past 24 hour
职业杯上一个DATABASE题目。stream palindrome
code review 求指导,附某知名游戏公司offline test题大量数据里面找top 100
Q:实现上一个, 下一个, 产品功能新鲜面试题
c++!Job opening in CT: Software Quality Engineer
一道题贴一下我google第一轮店面的题目
有包子,花街的一道题,请指教Rabin-Karp算法对不定长的query set怎么办?
相关话题的讨论汇总
话题: queries话题: terabytes话题: top话题: data话题: log
进入JobHunting版参与讨论
1 (共1页)
t*****e
发帖数: 53
1
Assume the data cannot fit in memory. You can provide either exact or
approximate solutions. Please provide more details about your solution.
i***h
发帖数: 12655
2
近似:
内存有多少用多少, 每个记录出现次数
当新的记录进来, 内存不够了, 踢掉最少最老的记录
精确:
用外部文件存结果?
b*******d
发帖数: 750
3
哥也被问到这道题了,略有不同,给出了incoming query的distribution的曲线,qps
是几千这样子。这个system有三个api:
1)getTopTenMillionInPastHour()
2) isInTopTenMilionInPastHour()
3) notifyWhenJoinOrRemovedFromTopTenMillionInPastHour()
自己来architect系统,定义service能提供数据的精度。
我当时给的是个多台机器的架构。我觉得是旧data每秒钟都在产生(任何当前时间进行
的api call,准确来说,1小时零1秒前的数据都是旧的,对算top10millioninPastHour
没有意义),但几乎没有任何系统在一秒钟内可以purge掉这么多的旧数据,所以就要
定义一个精度。比如,semantics是“我能保证给结果是精确的,但是有个最多20分钟
的delay”,或者“我不能保证结果是100%精确的,但是我能最新的query能够实时的反
应在结果中,并且返回的结果和真值有90%的重合”。
其实就是说consistency,availability,partition/sharding, 只能选两样。
w****x
发帖数: 2483
4

比如找top 10 queries, 把大文件hash分成200个小文件, 每个小文件可以放入内存.
每个小文件取top 5 queries, 从1000个query中找出前10个, 除非很巧, 基本可以得出
top 10

【在 t*****e 的大作中提到】
: Assume the data cannot fit in memory. You can provide either exact or
: approximate solutions. Please provide more details about your solution.

N**n
发帖数: 832
5
大神你还没回答我你从哪儿找到的800道题呢

【在 w****x 的大作中提到】
:
: 比如找top 10 queries, 把大文件hash分成200个小文件, 每个小文件可以放入内存.
: 每个小文件取top 5 queries, 从1000个query中找出前10个, 除非很巧, 基本可以得出
: top 10

t*****e
发帖数: 53
6
踢掉最少最老的记录
But those queries might showed again in the future? they might be in the
list of top 10 queries.

【在 i***h 的大作中提到】
: 近似:
: 内存有多少用多少, 每个记录出现次数
: 当新的记录进来, 内存不够了, 踢掉最少最老的记录
: 精确:
: 用外部文件存结果?

t*****e
发帖数: 53
7
Can you explain more detail about your system? Particularly, how you can get
the 90% accuracy?

qps
top10millioninPastHour

【在 b*******d 的大作中提到】
: 哥也被问到这道题了,略有不同,给出了incoming query的distribution的曲线,qps
: 是几千这样子。这个system有三个api:
: 1)getTopTenMillionInPastHour()
: 2) isInTopTenMilionInPastHour()
: 3) notifyWhenJoinOrRemovedFromTopTenMillionInPastHour()
: 自己来architect系统,定义service能提供数据的精度。
: 我当时给的是个多台机器的架构。我觉得是旧data每秒钟都在产生(任何当前时间进行
: 的api call,准确来说,1小时零1秒前的数据都是旧的,对算top10millioninPastHour
: 没有意义),但几乎没有任何系统在一秒钟内可以purge掉这么多的旧数据,所以就要
: 定义一个精度。比如,semantics是“我能保证给结果是精确的,但是有个最多20分钟

1 (共1页)
进入JobHunting版参与讨论
相关主题
Rabin-Karp算法对不定长的query set怎么办?Q:实现上一个, 下一个, 产品功能
两道面试题c++!
Google电面题一道题
非典型bloomberg Onsite 面经有包子,花街的一道题,请指教
问道Twitter面试题G家面题
google phone (failed)get Top 1million most frequent entries in past 24 hour
职业杯上一个DATABASE题目。stream palindrome
code review 求指导,附某知名游戏公司offline test题大量数据里面找top 100
相关话题的讨论汇总
话题: queries话题: terabytes话题: top话题: data话题: log