由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 文件可以随机读哪一行吗?
相关主题
一道电面题,分享下, 这个题应该用哪几个data structure?话说今天面了一老印
面试题:Data structure to find top 10 search strings问一道JAVA面试题目
G onsite题求讨论白板面试还是Python比较实用
Java programming question大家帮我看看这个程序哪里有问题啊!!
算法:给N个不重复的字母,输出个数为M的组合问一道题的优化以及时间复杂度
Amazon 电面share int2roman and roman2int java version
请教一个新鲜算法面试题leetcode上最搞笑的是这题
facebook一题新鲜电面
相关话题的讨论汇总
话题: string话题: 重复话题: 原文件话题: 文件话题: 随机
进入JobHunting版参与讨论
1 (共1页)
H***e
发帖数: 476
1
有个超大文件,每行存一个string,要求去除重复,如果直接hash行string的话,放不
进内存
如果存 md5(string)做为 key 存进hashmap,有可能存下,但是有可能不同string重复
key,我在想,
我可以把hashmap 的value用来存此string在原文件中的行数,那么重复的时候,可以
去原文件,看一下,是不是真的重复
只是这样如果不能直接读某行string的话,sequential的读花费就太高了。
p*****2
发帖数: 21240
2

不能随机。

【在 H***e 的大作中提到】
: 有个超大文件,每行存一个string,要求去除重复,如果直接hash行string的话,放不
: 进内存
: 如果存 md5(string)做为 key 存进hashmap,有可能存下,但是有可能不同string重复
: key,我在想,
: 我可以把hashmap 的value用来存此string在原文件中的行数,那么重复的时候,可以
: 去原文件,看一下,是不是真的重复
: 只是这样如果不能直接读某行string的话,sequential的读花费就太高了。

c*****e
发帖数: 737
3
当然可以set file pointer to wherever you want,但你要知道这个地方的offset.这
事情我以前干过。

【在 H***e 的大作中提到】
: 有个超大文件,每行存一个string,要求去除重复,如果直接hash行string的话,放不
: 进内存
: 如果存 md5(string)做为 key 存进hashmap,有可能存下,但是有可能不同string重复
: key,我在想,
: 我可以把hashmap 的value用来存此string在原文件中的行数,那么重复的时候,可以
: 去原文件,看一下,是不是真的重复
: 只是这样如果不能直接读某行string的话,sequential的读花费就太高了。

l***i
发帖数: 1309
4
Why don't you cut the big file into pieces and do a multiway merge.
1 (共1页)
进入JobHunting版参与讨论
相关主题
新鲜电面算法:给N个不重复的字母,输出个数为M的组合
leetcode 129Amazon 电面
Palindrome那题,OJ上通不过请教一个新鲜算法面试题
Palindrome那题,OJ上通不过facebook一题
一道电面题,分享下, 这个题应该用哪几个data structure?话说今天面了一老印
面试题:Data structure to find top 10 search strings问一道JAVA面试题目
G onsite题求讨论白板面试还是Python比较实用
Java programming question大家帮我看看这个程序哪里有问题啊!!
相关话题的讨论汇总
话题: string话题: 重复话题: 原文件话题: 文件话题: 随机