一个F的大数据题 - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 一个F的大数据题

相关主题
● 问个sql问题	● how facebook stores user data
● 再问道题	● 工作职业咨询
● 两道经典design问题求助	● 请教一个初级的用户名密码保存问题 (转载)
● 贡献邮件面试题(Web Development)	● 这道FB题如何解？
● 三连击	● SQL combine two columns from two different tables no shared columns
● 一个算法问题	● 谈谈申请薄厚和工作时的语言问题
● 最popular url的算法问题	● Job Opening at GE China-Process and Machine Health Monitori (转载)
● 一个 sql 题目	● Algorithm for Reversal

相关话题的讨论汇总
话题: hbase话题: index话题: table话题: user话题: 据题

进入JobHunting版参与讨论

1

(共1页)

c******a 发帖数: 789	1 1 trillion messages, each has maximum 10 words. How would you build the index table? How many machines are needed on the cluster to store the index table? 找到一个用hbase解决的，但我没用过hbase，都不知道人在讲啥 http://www.slideshare.net/brizzzdotcom/facebook-messages-hbase/14
J****3 发帖数: 427	2 坐等大牛来解答
g**u 发帖数: 504	3 不是很懂,跟大家讨论一下.应该要一个reversed index table 存到hbase里.我本来的想法是每一个word是row key, 但其实我们查的时候应该是给定user id的(不知道对不对), 所以我们需要一个reversed index table for each user.如果每个user建这样一个表就很麻烦了.看了楼主贴的那个链接里的inbox search,感觉只要一张表: Row key: userid, Column key: word, Version: message id 就可以了. 查询的时候,input是 userid + query string, 首先在hbase里根据row key找到那个 user id, 再用个filter把不相关的列去掉,就能查到想要的那些message了. 看到有用bloom filter的,这样filter column的时候会快些,不知道这个怎么弄,难道对每一个user id都要搞一个,感觉也不对啊. 等大牛来解惑~~ 【在 c******a 的大作中提到】 : 1 trillion messages, each has maximum 10 words. How would you build the : index table? : How many machines are needed on the cluster to store the index table? : 找到一个用hbase解决的，但我没用过hbase，都不知道人在讲啥 http://www.slideshare.net/brizzzdotcom/facebook-messages-hbase/14
a*****a 发帖数: 46	4 楼主能不能讲细一点儿？ index table怎么建取决于将来要怎么查询吧。如果是FB用户的message，应该是用关键词查询，显示消息及用户名？关键词需要同时match用户名么？比如，搜Cook，需不需要显示所有含Cook的消息以及所有叫Cook的人发的消息呢？还是只显示前者？假设不需要match用户名。 Slide 14里说用hbase存，<(row) user id::(column) word::message id> Slide 13里说hbase是按column分组存的，组内按user id、word、message id排序。那么查的时候应该先用每个word查出column，还可以根据查询者的好友过滤掉不相干的 user的message，然后merge sorted list 刚开始学习hbase和reverse index，等大牛详解~~
x*****0 发帖数: 452	5 mark
c******a 发帖数: 789	6 就这点信息。怎么查询就看你怎么设计了吧。见inline 哎那slide我是看不懂，没办法跟你讨论了 both，这个gmail／gchat都是这样的。【在 a*****a 的大作中提到】 : 楼主能不能讲细一点儿？ : index table怎么建取决于将来要怎么查询吧。如果是FB用户的message，应该是用关键 : 词查询，显示消息及用户名？关键词需要同时match用户名么？比如，搜Cook，需不需 : 要显示所有含Cook的消息以及所有叫Cook的人发的消息呢？还是只显示前者？ : 假设不需要match用户名。 : Slide 14里说用hbase存，<(row) user id::(column) word::message id> : Slide 13里说hbase是按column分组存的，组内按user id、word、message id排序。那 : 么查的时候应该先用每个word查出column，还可以根据查询者的好友过滤掉不相干的 : user的message，然后merge sorted list : 刚开始学习hbase和reverse index，等大牛详解~~
w******j 发帖数: 185	7 http://www.quora.com/How-are-bloom-filters-used-in-HBase

1

(共1页)

进入JobHunting版参与讨论

相关主题
● Algorithm for Reversal	● 三连击
● median of N^2 numbers across N machines	● 一个算法问题
● 请问如何安全地reverse 一个integer	● 最popular url的算法问题
● 问一道google的题	● 一个 sql 题目
● 问个sql问题	● how facebook stores user data
● 再问道题	● 工作职业咨询
● 两道经典design问题求助	● 请教一个初级的用户名密码保存问题 (转载)
● 贡献邮件面试题(Web Development)	● 这道FB题如何解？

相关话题的讨论汇总
话题: hbase话题: index话题: table话题: user话题: 据题

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)