f*********m 发帖数: 726 | 1 从“秒杀。。。”看来的,不解其意。
题目:非常大的文件,装不进内存。每行一个int类型数据,现在要你随机取100个数。
文章说“可以按照操作系统中的方法,先生成4G的地址表,在把这个表划分为小的4M的
小文件做个索引,二级索引。30位前十位表示第几个4M文件,后20位表示在这个4M文件
的第几个,等等,基于key value来设计存储,用key来建索引。”
是不是说这个4G的地址表每一个地址存放一个int?但int数目大于4G怎么办?另外,随
机数generator的范围是多少,是0~4G吗?还是要用generator好几次,每次对应不同的
位?
谢谢。 |
o***d 发帖数: 313 | 2 why not use "reservoir sampling"?
p.s. what's the title of that "秒杀" book? |
f*********m 发帖数: 726 | 3 why not use "reservoir sampling"?
数据海量,loop一边很费时间,还是在表中查找方便。
http://blog.csdn.net/v_july_v/article/details/7382693
【在 o***d 的大作中提到】 : why not use "reservoir sampling"? : p.s. what's the title of that "秒杀" book?
|
f*********m 发帖数: 726 | 4 顶,请赐教。
【在 f*********m 的大作中提到】 : 从“秒杀。。。”看来的,不解其意。 : 题目:非常大的文件,装不进内存。每行一个int类型数据,现在要你随机取100个数。 : 文章说“可以按照操作系统中的方法,先生成4G的地址表,在把这个表划分为小的4M的 : 小文件做个索引,二级索引。30位前十位表示第几个4M文件,后20位表示在这个4M文件 : 的第几个,等等,基于key value来设计存储,用key来建索引。” : 是不是说这个4G的地址表每一个地址存放一个int?但int数目大于4G怎么办?另外,随 : 机数generator的范围是多少,是0~4G吗?还是要用generator好几次,每次对应不同的 : 位? : 谢谢。
|
r**********g 发帖数: 22734 | 5 啥叫随机取100个数?random generate 100 个 index?
Build index也要时间啊,还能比reservior快?这题出的糊涂 |
f*********m 发帖数: 726 | 6 我想是说从文件里随机采样100个数。
若是能把文件中的每个数的所在的内存地址估计出来,那么也许能用到答案所说的方法?
【在 r**********g 的大作中提到】 : 啥叫随机取100个数?random generate 100 个 index? : Build index也要时间啊,还能比reservior快?这题出的糊涂
|