由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
CS版 - 问个编程问题。关于大量数据排序。
相关主题
问个sorting相关的题 (转载)sorting问题求教。 (转载)
请教一个初级算法问题问一个关于normalization的问题
[5个包子] 请教C/C++读取文件的遇到的问题请教一个matlab画图问题。
linux下如何sort一个大文件的内容? (转载)请教个简单的几何算法问题 (转载)
排序算法计算量问题! (转载)工作中的问题,很困惑,请教大家,拍砖也欢迎
Please help, an algorithem question请教一个latex调整作者布局的问题 (转载)
问个jsf的问题求助:想编一个读取笔记本电池当前电量的小程序,
问个算法问题并列第一作者
相关话题的讨论汇总
话题: user话题: 文件话题: sort话题: 数据话题: 排序
进入CS版参与讨论
1 (共1页)
a***a
发帖数: 149
1
硬盘有个文件,1G左右,有千万行数据,每行数据大概格式为:
user id, user name, user age, etc;
现在文件中的数据是按照 user id 排列的,想重新生成一个文件由 user age 排序。
请问该如何实现最好,机器的内存在 1.5G左右。 java 环境。
我感觉最笨的方法放到 Mysql 里面,让 database 帮忙做。
T**********n
发帖数: 480
2
内存比数据大直接在内存里排不就行了?

【在 a***a 的大作中提到】
: 硬盘有个文件,1G左右,有千万行数据,每行数据大概格式为:
: user id, user name, user age, etc;
: 现在文件中的数据是按照 user id 排列的,想重新生成一个文件由 user age 排序。
: 请问该如何实现最好,机器的内存在 1.5G左右。 java 环境。
: 我感觉最笨的方法放到 Mysql 里面,让 database 帮忙做。

a***a
发帖数: 149
3
还得留点给操作系统不是?

【在 T**********n 的大作中提到】
: 内存比数据大直接在内存里排不就行了?
N**D
发帖数: 10322
4
unix sort

【在 a***a 的大作中提到】
: 硬盘有个文件,1G左右,有千万行数据,每行数据大概格式为:
: user id, user name, user age, etc;
: 现在文件中的数据是按照 user id 排列的,想重新生成一个文件由 user age 排序。
: 请问该如何实现最好,机器的内存在 1.5G左右。 java 环境。
: 我感觉最笨的方法放到 Mysql 里面,让 database 帮忙做。

a****y
发帖数: 1035
5
merge sort

【在 a***a 的大作中提到】
: 硬盘有个文件,1G左右,有千万行数据,每行数据大概格式为:
: user id, user name, user age, etc;
: 现在文件中的数据是按照 user id 排列的,想重新生成一个文件由 user age 排序。
: 请问该如何实现最好,机器的内存在 1.5G左右。 java 环境。
: 我感觉最笨的方法放到 Mysql 里面,让 database 帮忙做。

w***g
发帖数: 5958
6
给0-N岁分别开一个文件,然后往各个文件里写,最后再合并。也算是merge sort吧。

【在 a****y 的大作中提到】
: merge sort
e**a
发帖数: 26
7
你这个好像叫bucket sort. O(n)的,比merge sort还好

【在 w***g 的大作中提到】
: 给0-N岁分别开一个文件,然后往各个文件里写,最后再合并。也算是merge sort吧。
c*****e
发帖数: 210
8
20刀加块内存,上excel
f*****y
发帖数: 444
9
this should work for you, but you have to figure out how to use it ;-)
http://code.activestate.com/recipes/546524/
c******u
发帖数: 105
10
1.5G其实够了,毕竟还有虚拟内存吗,有Cache也不会有太多硬盘读取。但是运行时候jvm的memory估计要调高。分开文件最后再merge我觉得很好。安全又直白。
C*******n
发帖数: 56
11
用unix命令,如果不行,让DB帮忙,还是不行,想自己写段程序,用外排序.
但注意,最好使用java.nio中的MappedByteBuffer来读取文件,以前,用标准java IO在
400M的文本文件查找关键字段,大概用4分钟的时间(普通笔记本,512内存),换了用NIO,
同样的代码,好像不到半分钟就可以了.
1 (共1页)
进入CS版参与讨论
相关主题
并列第一作者排序算法计算量问题! (转载)
海量级数据的算法问题Please help, an algorithem question
Endnote里面的引用怎么排序啊?问个jsf的问题
请问关于tpc-H生成的data读取问题,数据库的大侠们帮帮忙啊!问个算法问题
问个sorting相关的题 (转载)sorting问题求教。 (转载)
请教一个初级算法问题问一个关于normalization的问题
[5个包子] 请教C/C++读取文件的遇到的问题请教一个matlab画图问题。
linux下如何sort一个大文件的内容? (转载)请教个简单的几何算法问题 (转载)
相关话题的讨论汇总
话题: user话题: 文件话题: sort话题: 数据话题: 排序