大量字串的排序问题。可能不一定有解 - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 大量字串的排序问题。可能不一定有解

相关主题
● 不改变排序的hash算法?	● 一道字典题目
● 问一个问题的算法实现	● G家电面题,求解答‏
● 分享一盗题	● G家面题
● 变相的merge sort	● String list如何排序
● 电面不好，求bless。这题怎么答？	● list of words找两个没有相同字母的string S和T并且使得S.length()*T.length()最大
● universial hashing 一问	● amazon prefix list 用2种方法来解怎么做
● 面试题讨论：如何在一批文件中找到相同的文件	● 30分钟前刚电面你软，超简单，但我还是挂了(有答案)
● 贡献几道面试题	● 问一道面试设计题

相关话题的讨论汇总
话题: 字串话题: 排序话题: hash话题: 内存话题: 问题

进入JobHunting版参与讨论

1

(共1页)

e****9 发帖数: 316	1 假设有1M个字串，字串的平均长度1MB，需要对这些字串做排序。因为字串会有变动，而且对排序速度有要求，所以基于写文件的merge sort不适用。如果直接load到内存，至少需要1TB的内存。之前想到的是算每个字串的hash值，然后直把hash load到内存中做树或者堆排序，这样可以减少内存的消耗。但是一般的hash函数会改变原来的排序，所以这个地方会有问题有没有什么比较好的排序方式？
p*****2 发帖数: 21240	2 问题 distributed? 【在 e****9 的大作中提到】 : 假设有1M个字串，字串的平均长度1MB，需要对这些字串做排序。 : 因为字串会有变动，而且对排序速度有要求，所以基于写文件的merge sort不适用。 : 如果直接load到内存，至少需要1TB的内存。 : 之前想到的是算每个字串的hash值，然后直把hash load到内存中做树或者堆排序，这 : 样可以减少内存的消耗。但是一般的hash函数会改变原来的排序，所以这个地方会有问题 : 有没有什么比较好的排序方式？
f*****e 发帖数: 2992	3 考古“海量贴”，存成以头两个字母为名字的文件"ab.txt","bc.txt"然后用trie 对每个文件进行排序。问题【在 e****9 的大作中提到】 : 假设有1M个字串，字串的平均长度1MB，需要对这些字串做排序。 : 因为字串会有变动，而且对排序速度有要求，所以基于写文件的merge sort不适用。 : 如果直接load到内存，至少需要1TB的内存。 : 之前想到的是算每个字串的hash值，然后直把hash load到内存中做树或者堆排序，这 : 样可以减少内存的消耗。但是一般的hash函数会改变原来的排序，所以这个地方会有问题 : 有没有什么比较好的排序方式？
p*****2 发帖数: 21240	4 貌似LZ对速度有要求，而且字符串可能会变动的【在 f*****e 的大作中提到】 : 考古“海量贴”，存成以头两个字母为名字的文件"ab.txt","bc.txt"然后用trie : 对每个文件进行排序。 : : 问题
e****9 发帖数: 316	5 因为字串多并且可能变化，所以外排序都不可以用。现在考虑的就是有没有可能有什么hash函数，hash之后不改变原来的排序。就是hash("abc") < hash("bac") < hash("cab")

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 问一道面试设计题	● 电面不好，求bless。这题怎么答？
● Data Structure 一题.	● universial hashing 一问
● 请教2个 huge file的面试题	● 面试题讨论：如何在一批文件中找到相同的文件
● Amazon Interview Question	● 贡献几道面试题
● 不改变排序的hash算法?	● 一道字典题目
● 问一个问题的算法实现	● G家电面题,求解答‏
● 分享一盗题	● G家面题
● 变相的merge sort	● String list如何排序

相关话题的讨论汇总
话题: 字串话题: 排序话题: hash话题: 内存话题: 问题

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)