由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 从大data 产生多个小data 的方法
相关主题
求教一个简单的data step 牛肉包a sas merge question
a question about sas codingSAS菜鸟请教如果使SAS的output的结果放到一个文件内?
请教一sas code多大的data算是large data set?
SAS DATA 求助PROC SQL join data help
读入SAS data set的问题急需高人指点!!
问一个data subset的问题a question about SAS code
请教SAS BASE 70题里的第35题help on a sas question
请教怎样可以得到这样的一个dataset?求教proc sql 问题
相关话题的讨论汇总
话题: freq话题: data话题: dataset话题: output话题: 方法
进入Statistics版参与讨论
1 (共1页)
s******d
发帖数: 303
1
I need to generate 4 datasets (A,B,C,D) from a huge dataset X.Because X is
huge and have over 2 billion records, I am looking for a faster way to do it
. Because there is some relationship between A B C D. 请教高手快速而简易的方
法.以下是我想使用的方法,但是看上去并不快,而且电脑内存corrupted.由于每一个if
都是对数据的重新scan, 所以这个方法从本质上来说可能并不能提高运算的效率.小女
子虚心请教了.
data lib.A lib.B lib.C lib.D;
set lib.X;
if 0.9> freq > 0.1 then output lib.A;
if 0.8> freq >0.2 then output lib.B;
if 0.7> freq > 0.3 then output lib.C;
if 0.6> freq
g********e
发帖数: 8
2
I am wondering why you split your data in this way.
For datas in D, they will be in A,B and C also. Same for datas in C, they
will be in A and B also, ...

it
if

【在 s******d 的大作中提到】
: I need to generate 4 datasets (A,B,C,D) from a huge dataset X.Because X is
: huge and have over 2 billion records, I am looking for a faster way to do it
: . Because there is some relationship between A B C D. 请教高手快速而简易的方
: 法.以下是我想使用的方法,但是看上去并不快,而且电脑内存corrupted.由于每一个if
: 都是对数据的重新scan, 所以这个方法从本质上来说可能并不能提高运算的效率.小女
: 子虚心请教了.
: data lib.A lib.B lib.C lib.D;
: set lib.X;
: if 0.9> freq > 0.1 then output lib.A;
: if 0.8> freq >0.2 then output lib.B;

s*r
发帖数: 2757
3
要想快,load到oracle里面去
内存空间不够,分次读入,时间换空间

it
if

【在 s******d 的大作中提到】
: I need to generate 4 datasets (A,B,C,D) from a huge dataset X.Because X is
: huge and have over 2 billion records, I am looking for a faster way to do it
: . Because there is some relationship between A B C D. 请教高手快速而简易的方
: 法.以下是我想使用的方法,但是看上去并不快,而且电脑内存corrupted.由于每一个if
: 都是对数据的重新scan, 所以这个方法从本质上来说可能并不能提高运算的效率.小女
: 子虚心请教了.
: data lib.A lib.B lib.C lib.D;
: set lib.X;
: if 0.9> freq > 0.1 then output lib.A;
: if 0.8> freq >0.2 then output lib.B;

s******d
发帖数: 303
4
The reason is I would like to calculate mean, SD and quantiles for each
dataset. I am not sure if "proc means" can do mean in a subset of a dataset.
r*******d
发帖数: 2413
5
给个group变量,然后用by?

dataset.

【在 s******d 的大作中提到】
: The reason is I would like to calculate mean, SD and quantiles for each
: dataset. I am not sure if "proc means" can do mean in a subset of a dataset.

s******d
发帖数: 303
6
我不确定你的意思,楼上是不是说再创建一个变量,如果是这样的话我不确定是否合适
。原因是我的records特别多,每个record 只有5个变量,所以增加一个变量,会使我
的文件增加几十个G.
我们平时都处理非常巨大的数据,希望可以找到一个有效处理大数据的方法。
另外还有一个问题,在产生新数据的时候既可以用if, 也可以用where,看上去效果差不
多,不知道哪个处理速度更快。for example
dataset libname.A;
set libname.X;
where VarA > 1; "if VarA > 1"
run;
Thank you!
m*********n
发帖数: 413
7
2 billion records。。。
有点吓人
我也觉得没有必要用sas处理
w***z
发帖数: 28
8
where 更快
when use where , it subset first(chose the data according the condition).
When use if, it get all the data and then apply the condition..
s******d
发帖数: 303
9
请问有什么比较好的建议?用什么处理比较好呢?

【在 m*********n 的大作中提到】
: 2 billion records。。。
: 有点吓人
: 我也觉得没有必要用sas处理

1 (共1页)
进入Statistics版参与讨论
相关主题
求教proc sql 问题读入SAS data set的问题
SAS problem ask for help!问一个data subset的问题
My $0.02 on SAS debugging in Linux environment.请教SAS BASE 70题里的第35题
question about proc format请教怎样可以得到这样的一个dataset?
求教一个简单的data step 牛肉包a sas merge question
a question about sas codingSAS菜鸟请教如果使SAS的output的结果放到一个文件内?
请教一sas code多大的data算是large data set?
SAS DATA 求助PROC SQL join data help
相关话题的讨论汇总
话题: freq话题: data话题: dataset话题: output话题: 方法