贡献两道没见过的大数据题 - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 贡献两道没见过的大数据题

相关主题
● Amazon电话面试	● 贡献两道的面试题
● 贡献些电话面试题目	● 这周一的G家onsite，虽然挂了，还是发个面筋攒人品吧
● 问两道bloomberg的题目	● 二叉树分类问题
● 两道题目	● 最优合并及证明
● 请教问题三个整数之和为零的题目	● SnapChat 面經 + 彙總
● 分享一下面试题目	● google phone interview question
● 大家45分钟能写两道没见过的题嘛？	● c++书籍下载@MEGAUPLOAD(primer相关，interview exposed, effec
● 为什么面试45分钟两道题算正常难度？	● amazon电面

相关话题的讨论汇总
话题: 文件话题: mapreduce话题: 重复话题: 据题话题: file

进入JobHunting版参与讨论

1

(共1页)

j******2 发帖数: 362	1 实战得来的，都没答好，希望对后人有用 1.一个文件里超多行，每行格式是 user_id, item_id 其中item_id有很多重复。怎样压缩。答案：用哈夫曼coding（越常见的用越少bit） 2.一个超大磁盘（大于内存），串行存了很多文本文件，格式是 file_name, file_size, file_content 有几十台机器可用，怎么找出重复文件。答案：第一步：分区，用哈希函数把文件内容映射到一个整数，按整数分区到不同机器上；第二步：在各机器上用哈希表（文件内容为key，个数为value），最后输出重复的。
p*****2 发帖数: 21240	2 第二题怎么感觉那么别扭。就是mapreduce吧？第一题要写代码吗？上个星期刚做了这个练习，不过做的太粗了，现在差不多都忘记了。【在 j******2 的大作中提到】 : 实战得来的，都没答好，希望对后人有用 : 1.一个文件里超多行，每行格式是 : user_id, item_id : 其中item_id有很多重复。怎样压缩。 : 答案：用哈夫曼coding（越常见的用越少bit） : 2.一个超大磁盘（大于内存），串行存了很多文本文件，格式是 : file_name, file_size, file_content : 有几十台机器可用，怎么找出重复文件。 : 答案：第一步：分区，用哈希函数把文件内容映射到一个整数，按整数分区到不同机器 : 上；第二步：在各机器上用哈希表（文件内容为key，个数为value），最后输出重复的
j******2 发帖数: 362	3 让二爷见笑了，俺不懂mapreduce，一点不懂。第一题不用写码。【在 p*****2 的大作中提到】 : : 第二题怎么感觉那么别扭。就是mapreduce吧？ : 第一题要写代码吗？上个星期刚做了这个练习，不过做的太粗了，现在差不多都忘记了 : 。
t*********h 发帖数: 941	4 第一个看你的揭发就是纯粹的压缩阿和文件格式， user id貌似没什么关系【在 j******2 的大作中提到】 : 实战得来的，都没答好，希望对后人有用 : 1.一个文件里超多行，每行格式是 : user_id, item_id : 其中item_id有很多重复。怎样压缩。 : 答案：用哈夫曼coding（越常见的用越少bit） : 2.一个超大磁盘（大于内存），串行存了很多文本文件，格式是 : file_name, file_size, file_content : 有几十台机器可用，怎么找出重复文件。 : 答案：第一步：分区，用哈希函数把文件内容映射到一个整数，按整数分区到不同机器 : 上；第二步：在各机器上用哈希表（文件内容为key，个数为value），最后输出重复的
r*****s 发帖数: 74	5 两道题都可以用mapreduce啊
i**********d 发帖数: 105	6 问一下。大数据的排序怎么做？如果你用hash分成不同的部分，然后再排序。可是如果所有的数据都是在一个block里面？怎么处理呢？求教了！
j******2 发帖数: 362	7 能给写写吗？不会mapreduce的人正在挣扎着学习。【在 r*****s 的大作中提到】 : 两道题都可以用mapreduce啊
j******2 发帖数: 362	8 人说了，不会所有文件都collision，重复的大约1%，也无需排序，根据hash出来的值直接扔对应的machine 【在 i**********d 的大作中提到】 : 问一下。大数据的排序怎么做？如果你用hash分成不同的部分，然后再排序。可是如果 : 所有的数据都是在一个block里面？怎么处理呢？ : 求教了！

1

(共1页)

进入JobHunting版参与讨论

相关主题
● amazon电面	● 请教问题三个整数之和为零的题目
● 问一下LA和湾区工作比较	● 分享一下面试题目
● Arista Networks面经	● 大家45分钟能写两道没见过的题嘛？
● Google电面面经 + onsite求祝福	● 为什么面试45分钟两道题算正常难度？
● Amazon电话面试	● 贡献两道的面试题
● 贡献些电话面试题目	● 这周一的G家onsite，虽然挂了，还是发个面筋攒人品吧
● 问两道bloomberg的题目	● 二叉树分类问题
● 两道题目	● 最优合并及证明

相关话题的讨论汇总
话题: 文件话题: mapreduce话题: 重复话题: 据题话题: file

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)