a***r 发帖数: 420 | 1 需要生产一个格式为
FAMID IID F M Sex SNP1 SNP2 SNP3...的text file,
用作一个软件(MACH,版上搞生统的牛人应该知道)的input file
SNP的个数为2.5 million,IID有100个
原来的数据是以每个IID的每个SNP为一个observation存储在很长的dataset里的(250
million observation)
为了生成上述的文件,最直接的方法可能是对原dataset做proc transpose及其它相应操
作,生成一个上述格式的dataset然后export;
可是我仅仅是对原dataset的两个变量进行了一点改变,就从早上到现在还没跑完(服务
器上),服务器是32位的linux
我不知道要做完我计划的proc sql和proc transpose,会花多长时间
我完全没有处理这么大数据库的经验,实在有点了无头绪
要生成这样的text file,用SAS是合适的选择么?如果用SAS,有没有更好的方法呢?或
者,应该选择其他的软件和方法?
诚心求教,望大家指点!
先谢过~bow |
d*******o 发帖数: 493 | 2 raw文本有多大,SNP是numeric还是character变量,多少level,怎么读进的,生成的
SAS dataset体积有多大? |
a***r 发帖数: 420 | 3 raw文本是genomestudio产生的final report,text file,20G
用infile,input读入SAS,生成的dataset 30G...
SNP是char变量,还没有code成num,现在是“G G”的形式,所以level要说的话,应该
认为有16个
我原来也怀疑这么大的dataset行不行,因为这个读入就花了4,5个小时,但后来还是硬
着头皮上了
如果需要学习其他的软件来做data management,我也很乐意,但是不知道学什么好?
因为后面还有一个778G的final report,转成dataset380G,我还没有处理 ...
谢谢!
【在 d*******o 的大作中提到】 : raw文本有多大,SNP是numeric还是character变量,多少level,怎么读进的,生成的 : SAS dataset体积有多大?
|
s******r 发帖数: 1524 | 4 why use this format?
Why not
FAMID IID F M Sex SNP_ID, SNP_value?
Or break it into two tables like
IID SNP_ID, SNP_value
【在 a***r 的大作中提到】 : raw文本是genomestudio产生的final report,text file,20G : 用infile,input读入SAS,生成的dataset 30G... : SNP是char变量,还没有code成num,现在是“G G”的形式,所以level要说的话,应该 : 认为有16个 : 我原来也怀疑这么大的dataset行不行,因为这个读入就花了4,5个小时,但后来还是硬 : 着头皮上了 : 如果需要学习其他的软件来做data management,我也很乐意,但是不知道学什么好? : 因为后面还有一个778G的final report,转成dataset380G,我还没有处理 ... : 谢谢!
|
l*********s 发帖数: 5409 | 5 using SAS will incur lots of unnecessary overhead, it is best to write a
script to do the conversion. |
i********f 发帖数: 206 | 6 用C或者C++应该是最快的吧
用Perl应该也还好
不知道数据的具体结构,也许可以用awk这些简单的linux命令做
250
应操
服务
【在 a***r 的大作中提到】 : 需要生产一个格式为 : FAMID IID F M Sex SNP1 SNP2 SNP3...的text file, : 用作一个软件(MACH,版上搞生统的牛人应该知道)的input file : SNP的个数为2.5 million,IID有100个 : 原来的数据是以每个IID的每个SNP为一个observation存储在很长的dataset里的(250 : million observation) : 为了生成上述的文件,最直接的方法可能是对原dataset做proc transpose及其它相应操 : 作,生成一个上述格式的dataset然后export; : 可是我仅仅是对原dataset的两个变量进行了一点改变,就从早上到现在还没跑完(服务 : 器上),服务器是32位的linux
|
a***r 发帖数: 420 | 7 嗯,原来的dataset就是这样的格式的
是因为需要上述格式的text input,我想做一个这样格式的dataset然后输出
现在看来可能不太行
【在 s******r 的大作中提到】 : why use this format? : Why not : FAMID IID F M Sex SNP_ID, SNP_value? : Or break it into two tables like : IID SNP_ID, SNP_value
|
a***r 发帖数: 420 | 8 嗯,试试看,谢谢
【在 l*********s 的大作中提到】 : using SAS will incur lots of unnecessary overhead, it is best to write a : script to do the conversion.
|
a***r 发帖数: 420 | 9 请问您体会perl相比C/C++的优缺点有些什么?
一直想学,还没动手,
如果很有用,就这次开始学了
【在 i********f 的大作中提到】 : 用C或者C++应该是最快的吧 : 用Perl应该也还好 : 不知道数据的具体结构,也许可以用awk这些简单的linux命令做 : : 250 : 应操 : 服务
|
q********i 发帖数: 795 | |
s*r 发帖数: 2757 | |
a***r 发帖数: 420 | 12 嗯,其实不用来找association
这是preliminary data
【在 q********i 的大作中提到】 : 100个样本个数的gwas数据有点鸡肋
|
a***r 发帖数: 420 | 13 呵呵,看来看去,觉得学校还是这方面强一些
数据资源丰富,方法上的可以尝试的选择也比较多
不过客观说,部分也是因为搞clinical trial的教授不鸟我囧
谢谢你还记得哈~
【在 s*r 的大作中提到】 : 不是不做statgen吗
|