【求助】Large Dataset Management - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 【求助】Large Dataset Management

相关主题
● 怎么用SAS做加减乘除	● 怎么用SAS transpose这两dataset呀？
● SAS base question	● data reading question in SAS
● SAS sampling的问题	● SAS新手问一个做很多次比较的问题
● 求教 SAS base 123 Q 16	● 包子问，SAS里data long to wide format
● 新手请SAS合并数据集问题	● A SAS problem
● SAS problem ask for help!	● [合集] SAS里如何实现LOCF(LAST OBS CARRIED FORWARD)?
● sas大牛们这个要怎么实现呀	● in =option的一道题
● one quick question about concatenating data in SAS	● Ask a SAS Base question?

相关话题的讨论汇总
话题: dataset话题: snp话题: management话题: large话题: iid

进入Statistics版参与讨论

1

(共1页)

a***r 发帖数: 420	1 需要生产一个格式为 FAMID IID F M Sex SNP1 SNP2 SNP3...的text file，用作一个软件（MACH，版上搞生统的牛人应该知道）的input file SNP的个数为2.5 million，IID有100个原来的数据是以每个IID的每个SNP为一个observation存储在很长的dataset里的（250 million observation）为了生成上述的文件，最直接的方法可能是对原dataset做proc transpose及其它相应操作，生成一个上述格式的dataset然后export；可是我仅仅是对原dataset的两个变量进行了一点改变，就从早上到现在还没跑完（服务器上），服务器是32位的linux 我不知道要做完我计划的proc sql和proc transpose，会花多长时间我完全没有处理这么大数据库的经验，实在有点了无头绪要生成这样的text file，用SAS是合适的选择么？如果用SAS,有没有更好的方法呢？或者，应该选择其他的软件和方法？诚心求教，望大家指点！先谢过~bow
d*******o 发帖数: 493	2 raw文本有多大，SNP是numeric还是character变量，多少level，怎么读进的，生成的 SAS dataset体积有多大？
a***r 发帖数: 420	3 raw文本是genomestudio产生的final report，text file，20G 用infile，input读入SAS，生成的dataset 30G... SNP是char变量，还没有code成num，现在是“G G”的形式，所以level要说的话，应该认为有16个我原来也怀疑这么大的dataset行不行，因为这个读入就花了4,5个小时，但后来还是硬着头皮上了如果需要学习其他的软件来做data management，我也很乐意，但是不知道学什么好？因为后面还有一个778G的final report，转成dataset380G，我还没有处理 ... 谢谢! 【在 d*******o 的大作中提到】 : raw文本有多大，SNP是numeric还是character变量，多少level，怎么读进的，生成的 : SAS dataset体积有多大？
s******r 发帖数: 1524	4 why use this format? Why not FAMID IID F M Sex SNP_ID, SNP_value? Or break it into two tables like IID SNP_ID, SNP_value 【在 a***r 的大作中提到】 : raw文本是genomestudio产生的final report，text file，20G : 用infile，input读入SAS，生成的dataset 30G... : SNP是char变量，还没有code成num，现在是“G G”的形式，所以level要说的话，应该 : 认为有16个 : 我原来也怀疑这么大的dataset行不行，因为这个读入就花了4,5个小时，但后来还是硬 : 着头皮上了 : 如果需要学习其他的软件来做data management，我也很乐意，但是不知道学什么好？ : 因为后面还有一个778G的final report，转成dataset380G，我还没有处理 ... : 谢谢!
l*********s 发帖数: 5409	5 using SAS will incur lots of unnecessary overhead, it is best to write a script to do the conversion.
i********f 发帖数: 206	6 用C或者C++应该是最快的吧用Perl应该也还好不知道数据的具体结构，也许可以用awk这些简单的linux命令做 250 应操服务【在 a***r 的大作中提到】 : 需要生产一个格式为 : FAMID IID F M Sex SNP1 SNP2 SNP3...的text file， : 用作一个软件（MACH，版上搞生统的牛人应该知道）的input file : SNP的个数为2.5 million，IID有100个 : 原来的数据是以每个IID的每个SNP为一个observation存储在很长的dataset里的（250 : million observation） : 为了生成上述的文件，最直接的方法可能是对原dataset做proc transpose及其它相应操 : 作，生成一个上述格式的dataset然后export； : 可是我仅仅是对原dataset的两个变量进行了一点改变，就从早上到现在还没跑完（服务 : 器上），服务器是32位的linux
a***r 发帖数: 420	7 嗯，原来的dataset就是这样的格式的是因为需要上述格式的text input，我想做一个这样格式的dataset然后输出现在看来可能不太行【在 s******r 的大作中提到】 : why use this format? : Why not : FAMID IID F M Sex SNP_ID, SNP_value? : Or break it into two tables like : IID SNP_ID, SNP_value
a***r 发帖数: 420	8 嗯，试试看，谢谢【在 l*********s 的大作中提到】 : using SAS will incur lots of unnecessary overhead, it is best to write a : script to do the conversion.
a***r 发帖数: 420	9 请问您体会perl相比C/C++的优缺点有些什么？一直想学，还没动手，如果很有用，就这次开始学了【在 i********f 的大作中提到】 : 用C或者C++应该是最快的吧 : 用Perl应该也还好 : 不知道数据的具体结构，也许可以用awk这些简单的linux命令做 : : 250 : 应操 : 服务
q********i 发帖数: 795	10 100个样本个数的gwas数据有点鸡肋
s*r 发帖数: 2757	11 不是不做statgen吗
a***r 发帖数: 420	12 嗯，其实不用来找association 这是preliminary data 【在 q********i 的大作中提到】 : 100个样本个数的gwas数据有点鸡肋
a***r 发帖数: 420	13 呵呵，看来看去，觉得学校还是这方面强一些数据资源丰富，方法上的可以尝试的选择也比较多不过客观说，部分也是因为搞clinical trial的教授不鸟我囧谢谢你还记得哈~ 【在 s*r 的大作中提到】 : 不是不做statgen吗

1

(共1页)

进入Statistics版参与讨论

相关主题
● Ask a SAS Base question?	● 新手请SAS合并数据集问题
● 求问一道SAS adv 题	● SAS problem ask for help!
● SAS应用问题	● sas大牛们这个要怎么实现呀
● [提问]怎样提取SAS Dateset的observation number?	● one quick question about concatenating data in SAS
● 怎么用SAS做加减乘除	● 怎么用SAS transpose这两dataset呀？
● SAS base question	● data reading question in SAS
● SAS sampling的问题	● SAS新手问一个做很多次比较的问题
● 求教 SAS base 123 Q 16	● 包子问，SAS里data long to wide format

相关话题的讨论汇总
话题: dataset话题: snp话题: management话题: large话题: iid

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)