j******2 发帖数: 362 | 1 实战得来的,都没答好,希望对后人有用
1.一个文件里超多行,每行格式是
user_id, item_id
其中item_id有很多重复。怎样压缩。
答案:用哈夫曼coding(越常见的用越少bit)
2.一个超大磁盘(大于内存),串行存了很多文本文件,格式是
file_name, file_size, file_content
有几十台机器可用,怎么找出重复文件。
答案:第一步:分区,用哈希函数把文件内容映射到一个整数,按整数分区到不同机器
上;第二步:在各机器上用哈希表(文件内容为key,个数为value),最后输出重复的
。 |
p*****2 发帖数: 21240 | 2
第二题怎么感觉那么别扭。就是mapreduce吧?
第一题要写代码吗?上个星期刚做了这个练习,不过做的太粗了,现在差不多都忘记了
。
【在 j******2 的大作中提到】 : 实战得来的,都没答好,希望对后人有用 : 1.一个文件里超多行,每行格式是 : user_id, item_id : 其中item_id有很多重复。怎样压缩。 : 答案:用哈夫曼coding(越常见的用越少bit) : 2.一个超大磁盘(大于内存),串行存了很多文本文件,格式是 : file_name, file_size, file_content : 有几十台机器可用,怎么找出重复文件。 : 答案:第一步:分区,用哈希函数把文件内容映射到一个整数,按整数分区到不同机器 : 上;第二步:在各机器上用哈希表(文件内容为key,个数为value),最后输出重复的
|
j******2 发帖数: 362 | 3 让二爷见笑了,俺不懂mapreduce,一点不懂。
第一题不用写码。
【在 p*****2 的大作中提到】 : : 第二题怎么感觉那么别扭。就是mapreduce吧? : 第一题要写代码吗?上个星期刚做了这个练习,不过做的太粗了,现在差不多都忘记了 : 。
|
t*********h 发帖数: 941 | 4 第一个看你的揭发就是纯粹的压缩阿 和文件格式, user id貌似没什么关系
【在 j******2 的大作中提到】 : 实战得来的,都没答好,希望对后人有用 : 1.一个文件里超多行,每行格式是 : user_id, item_id : 其中item_id有很多重复。怎样压缩。 : 答案:用哈夫曼coding(越常见的用越少bit) : 2.一个超大磁盘(大于内存),串行存了很多文本文件,格式是 : file_name, file_size, file_content : 有几十台机器可用,怎么找出重复文件。 : 答案:第一步:分区,用哈希函数把文件内容映射到一个整数,按整数分区到不同机器 : 上;第二步:在各机器上用哈希表(文件内容为key,个数为value),最后输出重复的
|
r*****s 发帖数: 74 | |
i**********d 发帖数: 105 | 6 问一下。大数据的排序怎么做?如果你用hash分成不同的部分,然后再排序。可是如果
所有的数据都是在一个block里面?怎么处理呢?
求教了! |
j******2 发帖数: 362 | 7 能给写写吗?不会mapreduce的人正在挣扎着学习。
【在 r*****s 的大作中提到】 : 两道题都可以用mapreduce啊
|
j******2 发帖数: 362 | 8 人说了,不会所有文件都collision,重复的大约1%,也无需排序,根据hash出来的值
直接扔对应的machine
【在 i**********d 的大作中提到】 : 问一下。大数据的排序怎么做?如果你用hash分成不同的部分,然后再排序。可是如果 : 所有的数据都是在一个block里面?怎么处理呢? : 求教了!
|