由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 大量字串的排序问题。可能不一定有解
相关主题
不改变排序的hash算法?一道字典题目
问一个问题的算法实现G家电面题,求解答‏
分享一盗题G家面题
变相的merge sortString list如何排序
电面不好,求bless。这题怎么答?list of words找两个没有相同字母的string S和T并且使得S.length()*T.length()最大
universial hashing 一问amazon prefix list 用2种方法来解怎么做
面试题讨论:如何在一批文件中找到相同的文件30分钟前刚电面你软,超简单,但我还是挂了(有答案)
贡献几道面试题问一道面试设计题
相关话题的讨论汇总
话题: 字串话题: 排序话题: hash话题: 内存话题: 问题
进入JobHunting版参与讨论
1 (共1页)
e****9
发帖数: 316
1
假设有1M个字串,字串的平均长度1MB,需要对这些字串做排序。
因为字串会有变动,而且对排序速度有要求,所以基于写文件的merge sort不适用。
如果直接load到内存,至少需要1TB的内存。
之前想到的是算每个字串的hash值,然后直把hash load到内存中做树或者堆排序,这
样可以减少内存的消耗。但是一般的hash函数会改变原来的排序,所以这个地方会有问题
有没有什么比较好的排序方式?
p*****2
发帖数: 21240
2

问题
distributed?

【在 e****9 的大作中提到】
: 假设有1M个字串,字串的平均长度1MB,需要对这些字串做排序。
: 因为字串会有变动,而且对排序速度有要求,所以基于写文件的merge sort不适用。
: 如果直接load到内存,至少需要1TB的内存。
: 之前想到的是算每个字串的hash值,然后直把hash load到内存中做树或者堆排序,这
: 样可以减少内存的消耗。但是一般的hash函数会改变原来的排序,所以这个地方会有问题
: 有没有什么比较好的排序方式?

f*****e
发帖数: 2992
3
考古“海量贴”,存成以头两个字母为名字的文件"ab.txt","bc.txt"然后用trie
对每个文件进行排序。

问题

【在 e****9 的大作中提到】
: 假设有1M个字串,字串的平均长度1MB,需要对这些字串做排序。
: 因为字串会有变动,而且对排序速度有要求,所以基于写文件的merge sort不适用。
: 如果直接load到内存,至少需要1TB的内存。
: 之前想到的是算每个字串的hash值,然后直把hash load到内存中做树或者堆排序,这
: 样可以减少内存的消耗。但是一般的hash函数会改变原来的排序,所以这个地方会有问题
: 有没有什么比较好的排序方式?

p*****2
发帖数: 21240
4

貌似LZ对速度有要求,而且字符串可能会变动的

【在 f*****e 的大作中提到】
: 考古“海量贴”,存成以头两个字母为名字的文件"ab.txt","bc.txt"然后用trie
: 对每个文件进行排序。
:
: 问题

e****9
发帖数: 316
5
因为字串多并且可能变化,所以外排序都不可以用。
现在考虑的就是有没有可能有什么hash函数,hash之后不改变原来的排序。
就是hash("abc") < hash("bac") < hash("cab")
1 (共1页)
进入JobHunting版参与讨论
相关主题
问一道面试设计题电面不好,求bless。这题怎么答?
Data Structure 一题.universial hashing 一问
请教2个 huge file的面试题面试题讨论:如何在一批文件中找到相同的文件
Amazon Interview Question贡献几道面试题
不改变排序的hash算法?一道字典题目
问一个问题的算法实现G家电面题,求解答‏
分享一盗题G家面题
变相的merge sortString list如何排序
相关话题的讨论汇总
话题: 字串话题: 排序话题: hash话题: 内存话题: 问题