文件可以随机读哪一行吗？ - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 文件可以随机读哪一行吗？

相关主题
● 一道电面题，分享下，这个题应该用哪几个data structure?	● 话说今天面了一老印
● 面试题：Data structure to find top 10 search strings	● 问一道JAVA面试题目
● G onsite题求讨论	● 白板面试还是Python比较实用
● Java programming question	● 大家帮我看看这个程序哪里有问题啊！！
● 算法：给N个不重复的字母，输出个数为M的组合	● 问一道题的优化以及时间复杂度
● Amazon 电面	● share int2roman and roman2int java version
● 请教一个新鲜算法面试题	● leetcode上最搞笑的是这题
● facebook一题	● 新鲜电面

相关话题的讨论汇总
话题: string话题: 重复话题: 原文件话题: 文件话题: 随机

进入JobHunting版参与讨论

1

(共1页)

H***e 发帖数: 476	1 有个超大文件，每行存一个string,要求去除重复，如果直接hash行string的话，放不进内存如果存 md5(string)做为 key 存进hashmap,有可能存下，但是有可能不同string重复 key,我在想，我可以把hashmap 的value用来存此string在原文件中的行数，那么重复的时候，可以去原文件，看一下，是不是真的重复只是这样如果不能直接读某行string的话，sequential的读花费就太高了。
p*****2 发帖数: 21240	2 不能随机。【在 H***e 的大作中提到】 : 有个超大文件，每行存一个string,要求去除重复，如果直接hash行string的话，放不 : 进内存 : 如果存 md5(string)做为 key 存进hashmap,有可能存下，但是有可能不同string重复 : key,我在想， : 我可以把hashmap 的value用来存此string在原文件中的行数，那么重复的时候，可以 : 去原文件，看一下，是不是真的重复 : 只是这样如果不能直接读某行string的话，sequential的读花费就太高了。
c*****e 发帖数: 737	3 当然可以set file pointer to wherever you want，但你要知道这个地方的offset.这事情我以前干过。【在 H***e 的大作中提到】 : 有个超大文件，每行存一个string,要求去除重复，如果直接hash行string的话，放不 : 进内存 : 如果存 md5(string)做为 key 存进hashmap,有可能存下，但是有可能不同string重复 : key,我在想， : 我可以把hashmap 的value用来存此string在原文件中的行数，那么重复的时候，可以 : 去原文件，看一下，是不是真的重复 : 只是这样如果不能直接读某行string的话，sequential的读花费就太高了。
l***i 发帖数: 1309	4 Why don't you cut the big file into pieces and do a multiway merge.

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 新鲜电面	● 算法：给N个不重复的字母，输出个数为M的组合
● leetcode 129	● Amazon 电面
● Palindrome那题，OJ上通不过	● 请教一个新鲜算法面试题
● Palindrome那题，OJ上通不过	● facebook一题
● 一道电面题，分享下，这个题应该用哪几个data structure?	● 话说今天面了一老印
● 面试题：Data structure to find top 10 search strings	● 问一道JAVA面试题目
● G onsite题求讨论	● 白板面试还是Python比较实用
● Java programming question	● 大家帮我看看这个程序哪里有问题啊！！

相关话题的讨论汇总
话题: string话题: 重复话题: 原文件话题: 文件话题: 随机

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)