一个design题 - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 一个design题

相关主题
● 海量数据用什么排序方法好	● 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？
● 问个大数据处理的面试题	● 明天面apple, 求bless
● 有人知道这本书吗？	● 请教一个海量数据处理的题
● 前几天有个朋友发过一个总结大量数据处理问题的帖子，怎么找不到了？	● System design总结
● 海量数据处理和分布式数据库的职位会问些什么问题？	● T家系统/平台组面试会考些什么？
● 看到有人要海量数据处理的书	● 有互联网公司全职经验的人请求google实习host match interview
● 海量数据处理的题目	● 选错组了?
● 关于设计问题的范围	● CS面试求指导（瓶颈）~

相关话题的讨论汇总
话题: design话题: 数据话题: 机器话题: 1000话题: 分布式

进入JobHunting版参与讨论

1

(共1页)

m*******y 发帖数: 904	1 比如分布式的机器上处理和存了很多数据，怎么高效的把前1000个data （assuming数据有某种先后或优先的级别关系）找出来？
u***n 发帖数: 21026	2 假设每个分布式里面都是排序的，每个分布式的前1000个拿出来做排序，肯定。找到前 1000个【在 m*******y 的大作中提到】 : 比如分布式的机器上处理和存了很多数据，怎么高效的把前1000个data （assuming数 : 据有某种先后或优先的级别关系）找出来？
j**********r 发帖数: 3798	3 这不是典型的mapreduce? 【在 m*******y 的大作中提到】 : 比如分布式的机器上处理和存了很多数据，怎么高效的把前1000个data （assuming数 : 据有某种先后或优先的级别关系）找出来？
w*****w 发帖数: 53	4 "教你如何迅速秒杀掉 99%海量数据处理面试题"
H**********5 发帖数: 2012	5 赞这个【在 w*****w 的大作中提到】 : "教你如何迅速秒杀掉 99%海量数据处理面试题"
m*******y 发帖数: 904	6 如果这个问的重点不是数据已经分布存好了，然后问怎么处理海量数据，而是问怎么设计这个分布式系统（收到新的数据/request怎么处理，怎么存， etc）可以尽量避免这一类数据处理，而仍然可以高效的达到目的呢？【在 w*****w 的大作中提到】 : "教你如何迅速秒杀掉 99%海量数据处理面试题"
c*******e 发帖数: 373	7 假设有100个机器，假设数据基本随机分布在各个机器里，那么每个机器中，把前20个拿出来排序，就很可能找到前1000个如果发现有某机器提供的20个数据中，最小的那个数据在总排名中是前1000的，说明此机器中20名之后的数据，有可能是总排名中前1000的，但是第一次没拿出来。那么根据首次20个数据中最小的数据在总排名中的位置，适当再次从此机器取数据，当然是排名越靠前，那么再次取的数据更多一点比较好。整个算法的前提是，数据基本随机平均分布在各个机器中。如果数据是明显有序分布的，那么算法就不合适了【在 u***n 的大作中提到】 : 假设每个分布式里面都是排序的，每个分布式的前1000个拿出来做排序，肯定。找到前 : 1000个

1

(共1页)

进入JobHunting版参与讨论

相关主题
● CS面试求指导（瓶颈）~	● 海量数据处理和分布式数据库的职位会问些什么问题？
● recruiter告诉俺feedback的结果有些混	● 看到有人要海量数据处理的书
● Cloudera这个公司怎么样	● 海量数据处理的题目
● 招数据科学家 (转载)	● 关于设计问题的范围
● 海量数据用什么排序方法好	● 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？
● 问个大数据处理的面试题	● 明天面apple, 求bless
● 有人知道这本书吗？	● 请教一个海量数据处理的题
● 前几天有个朋友发过一个总结大量数据处理问题的帖子，怎么找不到了？	● System design总结

相关话题的讨论汇总
话题: design话题: 数据话题: 机器话题: 1000话题: 分布式

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)