由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 贡献两道没见过的大数据题
相关主题
Amazon电话面试贡献两道的面试题
贡献些电话面试题目这周一的G家onsite,虽然挂了,还是发个面筋攒人品吧
问两道bloomberg的题目二叉树分类问题
两道题目最优合并及证明
请教问题 三个整数之和为零的题目SnapChat 面經 + 彙總
分享一下面试题目google phone interview question
大家45分钟能写两道没见过的题嘛?c++书籍下载@MEGAUPLOAD(primer相关,interview exposed, effec
为什么面试45分钟两道题算正常难度?amazon电面
相关话题的讨论汇总
话题: 文件话题: mapreduce话题: 重复话题: 据题话题: file
进入JobHunting版参与讨论
1 (共1页)
j******2
发帖数: 362
1
实战得来的,都没答好,希望对后人有用
1.一个文件里超多行,每行格式是
user_id, item_id
其中item_id有很多重复。怎样压缩。
答案:用哈夫曼coding(越常见的用越少bit)
2.一个超大磁盘(大于内存),串行存了很多文本文件,格式是
file_name, file_size, file_content
有几十台机器可用,怎么找出重复文件。
答案:第一步:分区,用哈希函数把文件内容映射到一个整数,按整数分区到不同机器
上;第二步:在各机器上用哈希表(文件内容为key,个数为value),最后输出重复的
p*****2
发帖数: 21240
2

第二题怎么感觉那么别扭。就是mapreduce吧?
第一题要写代码吗?上个星期刚做了这个练习,不过做的太粗了,现在差不多都忘记了


【在 j******2 的大作中提到】
: 实战得来的,都没答好,希望对后人有用
: 1.一个文件里超多行,每行格式是
: user_id, item_id
: 其中item_id有很多重复。怎样压缩。
: 答案:用哈夫曼coding(越常见的用越少bit)
: 2.一个超大磁盘(大于内存),串行存了很多文本文件,格式是
: file_name, file_size, file_content
: 有几十台机器可用,怎么找出重复文件。
: 答案:第一步:分区,用哈希函数把文件内容映射到一个整数,按整数分区到不同机器
: 上;第二步:在各机器上用哈希表(文件内容为key,个数为value),最后输出重复的

j******2
发帖数: 362
3
让二爷见笑了,俺不懂mapreduce,一点不懂。
第一题不用写码。

【在 p*****2 的大作中提到】
:
: 第二题怎么感觉那么别扭。就是mapreduce吧?
: 第一题要写代码吗?上个星期刚做了这个练习,不过做的太粗了,现在差不多都忘记了
: 。

t*********h
发帖数: 941
4
第一个看你的揭发就是纯粹的压缩阿 和文件格式, user id貌似没什么关系

【在 j******2 的大作中提到】
: 实战得来的,都没答好,希望对后人有用
: 1.一个文件里超多行,每行格式是
: user_id, item_id
: 其中item_id有很多重复。怎样压缩。
: 答案:用哈夫曼coding(越常见的用越少bit)
: 2.一个超大磁盘(大于内存),串行存了很多文本文件,格式是
: file_name, file_size, file_content
: 有几十台机器可用,怎么找出重复文件。
: 答案:第一步:分区,用哈希函数把文件内容映射到一个整数,按整数分区到不同机器
: 上;第二步:在各机器上用哈希表(文件内容为key,个数为value),最后输出重复的

r*****s
发帖数: 74
5
两道题都可以用mapreduce啊
i**********d
发帖数: 105
6
问一下。大数据的排序怎么做?如果你用hash分成不同的部分,然后再排序。可是如果
所有的数据都是在一个block里面?怎么处理呢?
求教了!
j******2
发帖数: 362
7
能给写写吗?不会mapreduce的人正在挣扎着学习。

【在 r*****s 的大作中提到】
: 两道题都可以用mapreduce啊
j******2
发帖数: 362
8
人说了,不会所有文件都collision,重复的大约1%,也无需排序,根据hash出来的值
直接扔对应的machine

【在 i**********d 的大作中提到】
: 问一下。大数据的排序怎么做?如果你用hash分成不同的部分,然后再排序。可是如果
: 所有的数据都是在一个block里面?怎么处理呢?
: 求教了!

1 (共1页)
进入JobHunting版参与讨论
相关主题
amazon电面请教问题 三个整数之和为零的题目
问一下LA和湾区工作比较分享一下面试题目
Arista Networks面经大家45分钟能写两道没见过的题嘛?
Google电面面经 + onsite求祝福为什么面试45分钟两道题算正常难度?
Amazon电话面试贡献两道的面试题
贡献些电话面试题目这周一的G家onsite,虽然挂了,还是发个面筋攒人品吧
问两道bloomberg的题目二叉树分类问题
两道题目最优合并及证明
相关话题的讨论汇总
话题: 文件话题: mapreduce话题: 重复话题: 据题话题: file