由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 讨论一下外部排序如何减少磁盘读写
相关主题
问一个问题的算法实现算法:给N个不重复的字母,输出个数为M的组合
攒RP发A家电面2轮也说个概率题
弱问:两个数组的并集和交集内部雇员refer,提交简历和外部自己提交简历
这里人气高 问个RAID5问题有最简法code么
回馈本版,最有名的出租车公司onsite面经我的找工问题.
Google Phone Screen面试后
找到工作,附经历和感受笔试题目求助!
Adobe面试题, 怎么能把很多文件读到Memory ?[电话面试] Amazon First Round
相关话题的讨论汇总
话题: 读写话题: 磁盘话题: 排序话题: seek话题: 减少
进入JobHunting版参与讨论
1 (共1页)
e**c
发帖数: 195
1
外部排序是一个常见问题,这个不用再说了。
但是,有时候面试官会问如何减少磁盘读写。搜了搜,没有找到什么有说服力的答案。
请大侠们指教指教!
p********7
发帖数: 549
2
为啥用外部排序,我觉得不如用map reduce。把input按照大小划分成几个块,分别排
序。
比如有20G 数字,1G 内存,不如把20G数字按照大小分别存在不同的文件里面,然后分
别排序。如果一个范围内数字太多,就再分细一点。我觉得这样读io的次数会少很多。
y*********e
发帖数: 518
3
对于磁盘读写,sequential seek速度比random seek要快1~2个数量级。所以,减少
磁盘读写overhead的首要任务是尽可能的进行sequential seek。
假设没有RAID:
若是有2枚硬盘,那么用一个盘读,一个盘写,就可以做到最大化的sequential seek。
从一个盘读入欲排序的文件,用另外一个盘做临时盘存放临时文件。
若是只有一枚硬盘:尽力的提高 IO Buffer,也可以减少disk random seek。
能用到SSD或者RAID也是很不错的。
若是RAID,用RAID0和RAID5能提高速度,原理是用多枚硬盘同时读写。

【在 e**c 的大作中提到】
: 外部排序是一个常见问题,这个不用再说了。
: 但是,有时候面试官会问如何减少磁盘读写。搜了搜,没有找到什么有说服力的答案。
: 请大侠们指教指教!

1 (共1页)
进入JobHunting版参与讨论
相关主题
[电话面试] Amazon First Round回馈本版,最有名的出租车公司onsite面经
bloomberg非CS面经~攒RPGoogle Phone Screen
h1b transfer大约需要多长时间找到工作,附经历和感受
一个CS面试题: 一个骰子最多掷三次,求最佳策略Adobe面试题, 怎么能把很多文件读到Memory ?
问一个问题的算法实现算法:给N个不重复的字母,输出个数为M的组合
攒RP发A家电面2轮也说个概率题
弱问:两个数组的并集和交集内部雇员refer,提交简历和外部自己提交简历
这里人气高 问个RAID5问题有最简法code么
相关话题的讨论汇总
话题: 读写话题: 磁盘话题: 排序话题: seek话题: 减少