由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - SAS处理Large Dataset太慢了,怎么办?
相关主题
SAS adv question.请大家帮忙看看请教个SAS coding 问题
请问两道sas adv的题..a SAS question in base 70
SAS里怎么根据VALUE来选择需要OUTPUT的COLUMNSSAS一问
[合集] SAS里如何实现LOCF(LAST OBS CARRIED FORWARD)?Please help me with SAS! Thank you!
[SAS] data set options (obs=) in output tableslarge dataset impot into SAS
SAS dataset 中,怎么把数据往上移一行?SAS help: how to count missing values of columns in a datasets
SAS中FORMAT问题求教how to read in 1/0 datasets in SAS?
one quick question about concatenating data in SASAnother SAS question
相关话题的讨论汇总
话题: sas话题: large话题: dataset话题: column话题: pc
进入Statistics版参与讨论
1 (共1页)
v*******g
发帖数: 334
1
我的数据有10M行,几百列,大概10G,从TXT读入SAS就花很多时间,再用SAS sort 时
更慢,也消耗空间,数据处理完,再输出也要花很多时间。
软硬件
SAS 9.2
Unix
PC ( win 7 , 内存不小,具体多少不确定)
大家怎么处理这种状况的?
s*********e
发帖数: 1051
2
数据不大。
你用什么软硬件

【在 v*******g 的大作中提到】
: 我的数据有10M行,几百列,大概10G,从TXT读入SAS就花很多时间,再用SAS sort 时
: 更慢,也消耗空间,数据处理完,再输出也要花很多时间。
: 软硬件
: SAS 9.2
: Unix
: PC ( win 7 , 内存不小,具体多少不确定)
: 大家怎么处理这种状况的?

v*******g
发帖数: 334
3
软硬件
SAS 9.2
Unix
PC ( win 7 , 内存不小,具体多少不确定)
d******e
发帖数: 551
4
10G 用PC SAS做的话挺大了吧?除了用Server,还能怎么做呢?

【在 s*********e 的大作中提到】
: 数据不大。
: 你用什么软硬件

o****o
发帖数: 8077
5
using INDEXING not sorting
also, when you read from TXT, customize length of your variables to minimize
I/O burden

【在 v*******g 的大作中提到】
: 我的数据有10M行,几百列,大概10G,从TXT读入SAS就花很多时间,再用SAS sort 时
: 更慢,也消耗空间,数据处理完,再输出也要花很多时间。
: 软硬件
: SAS 9.2
: Unix
: PC ( win 7 , 内存不小,具体多少不确定)
: 大家怎么处理这种状况的?

s*********e
发帖数: 1051
6
indexing is a very good strategy when handling large data. but very few
people would use now.

minimize

【在 o****o 的大作中提到】
: using INDEXING not sorting
: also, when you read from TXT, customize length of your variables to minimize
: I/O burden

c****x
发帖数: 6601
7
排序的话:
I/O efficient sorting(external merge sort)
或者hadoop terasort
v*******a
发帖数: 1193
8
10m 在row 来说不算特别大,但是有几百column 就大了,所有column 都要用吗?不用
的不要都一起sort

【在 v*******g 的大作中提到】
: 我的数据有10M行,几百列,大概10G,从TXT读入SAS就花很多时间,再用SAS sort 时
: 更慢,也消耗空间,数据处理完,再输出也要花很多时间。
: 软硬件
: SAS 9.2
: Unix
: PC ( win 7 , 内存不小,具体多少不确定)
: 大家怎么处理这种状况的?

v*******g
发帖数: 334
9
几百column都要保留的
R*********i
发帖数: 7643
10
INDEX,还有如果不是每个OBS都有用,用PROC SQL先挑出来你想要的,比DATA STEP快
g*******r
发帖数: 270
11
也是unix,sas9.2曾经处理过670m obs,近200 column的数据,
一个办法就是只取需要用的column,一般而言也就几(十)个关键column,绝大多数的
是不参与logic运算的,只是最后要populate一下而已。
还有就是第一步就先supset一下,尽可能的减少obs。
最后一点就是注意自己的programming尽可能的efficient,至少逻辑上要最大可能的简
单化,不要重复的join/match,这个就需要搞透彻了整个project的logic.
h********3
发帖数: 2075
12
10M的算小数据。真正的大数据都是10B的级别。SAS本来就不适合做大数据处理。
l*******l
发帖数: 204
13
SAS SPDE engine and compress
1 (共1页)
进入Statistics版参与讨论
相关主题
Another SAS question[SAS] data set options (obs=) in output tables
A question in splitting datasetSAS dataset 中,怎么把数据往上移一行?
发包子求大牛解SAS问题,急SAS中FORMAT问题求教
SAS Questionone quick question about concatenating data in SAS
SAS adv question.请大家帮忙看看请教个SAS coding 问题
请问两道sas adv的题..a SAS question in base 70
SAS里怎么根据VALUE来选择需要OUTPUT的COLUMNSSAS一问
[合集] SAS里如何实现LOCF(LAST OBS CARRIED FORWARD)?Please help me with SAS! Thank you!
相关话题的讨论汇总
话题: sas话题: large话题: dataset话题: column话题: pc