v*******g 发帖数: 334 | 1 我的数据有10M行,几百列,大概10G,从TXT读入SAS就花很多时间,再用SAS sort 时
更慢,也消耗空间,数据处理完,再输出也要花很多时间。
软硬件
SAS 9.2
Unix
PC ( win 7 , 内存不小,具体多少不确定)
大家怎么处理这种状况的? |
s*********e 发帖数: 1051 | 2 数据不大。
你用什么软硬件
【在 v*******g 的大作中提到】 : 我的数据有10M行,几百列,大概10G,从TXT读入SAS就花很多时间,再用SAS sort 时 : 更慢,也消耗空间,数据处理完,再输出也要花很多时间。 : 软硬件 : SAS 9.2 : Unix : PC ( win 7 , 内存不小,具体多少不确定) : 大家怎么处理这种状况的?
|
v*******g 发帖数: 334 | 3 软硬件
SAS 9.2
Unix
PC ( win 7 , 内存不小,具体多少不确定) |
d******e 发帖数: 551 | 4 10G 用PC SAS做的话挺大了吧?除了用Server,还能怎么做呢?
【在 s*********e 的大作中提到】 : 数据不大。 : 你用什么软硬件
|
o****o 发帖数: 8077 | 5 using INDEXING not sorting
also, when you read from TXT, customize length of your variables to minimize
I/O burden
【在 v*******g 的大作中提到】 : 我的数据有10M行,几百列,大概10G,从TXT读入SAS就花很多时间,再用SAS sort 时 : 更慢,也消耗空间,数据处理完,再输出也要花很多时间。 : 软硬件 : SAS 9.2 : Unix : PC ( win 7 , 内存不小,具体多少不确定) : 大家怎么处理这种状况的?
|
s*********e 发帖数: 1051 | 6 indexing is a very good strategy when handling large data. but very few
people would use now.
minimize
【在 o****o 的大作中提到】 : using INDEXING not sorting : also, when you read from TXT, customize length of your variables to minimize : I/O burden
|
c****x 发帖数: 6601 | 7 排序的话:
I/O efficient sorting(external merge sort)
或者hadoop terasort |
v*******a 发帖数: 1193 | 8 10m 在row 来说不算特别大,但是有几百column 就大了,所有column 都要用吗?不用
的不要都一起sort
【在 v*******g 的大作中提到】 : 我的数据有10M行,几百列,大概10G,从TXT读入SAS就花很多时间,再用SAS sort 时 : 更慢,也消耗空间,数据处理完,再输出也要花很多时间。 : 软硬件 : SAS 9.2 : Unix : PC ( win 7 , 内存不小,具体多少不确定) : 大家怎么处理这种状况的?
|
v*******g 发帖数: 334 | |
R*********i 发帖数: 7643 | 10 INDEX,还有如果不是每个OBS都有用,用PROC SQL先挑出来你想要的,比DATA STEP快
。 |
g*******r 发帖数: 270 | 11 也是unix,sas9.2曾经处理过670m obs,近200 column的数据,
一个办法就是只取需要用的column,一般而言也就几(十)个关键column,绝大多数的
是不参与logic运算的,只是最后要populate一下而已。
还有就是第一步就先supset一下,尽可能的减少obs。
最后一点就是注意自己的programming尽可能的efficient,至少逻辑上要最大可能的简
单化,不要重复的join/match,这个就需要搞透彻了整个project的logic. |
h********3 发帖数: 2075 | 12 10M的算小数据。真正的大数据都是10B的级别。SAS本来就不适合做大数据处理。 |
l*******l 发帖数: 204 | 13 SAS SPDE engine and compress |