M***7 发帖数: 2420 | 1 比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。
以前做过一阵GENOMICS,不知道现在是什么趋势?
Thanks. |
d***y 发帖数: 8536 | |
y******e 发帖数: 277 | |
e**s 发帖数: 513 | 4 I have the same questions for bioinformatics people.
存储用什么系统,是否开源,等等。
【在 M***7 的大作中提到】 : 比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。 : 以前做过一阵GENOMICS,不知道现在是什么趋势? : Thanks.
|
h***0 发帖数: 248 | 5
存储用什么系统,是否开源,等等。
如果说sequence analysis, 主要是用PERL,
data mining主要用JAVA
data mining 你指什么?结合功能数据?
现在NGS相关的都很多, de novo的基因组注释已经没那么火了,现在主要是各种
comparative -omics的研究
还有各种分析软件的开发
测序成本降了以后,计算升级以后,好多以前测不起的现在都能测了
分析方法要跟上,工具/软件开发肯定有好多活可以做
【在 M***7 的大作中提到】 : 比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。 : 以前做过一阵GENOMICS,不知道现在是什么趋势? : Thanks.
|
S**********l 发帖数: 3835 | 6 data mining 用java???
【在 h***0 的大作中提到】 : : 存储用什么系统,是否开源,等等。 : 如果说sequence analysis, 主要是用PERL, : data mining主要用JAVA : data mining 你指什么?结合功能数据? : 现在NGS相关的都很多, de novo的基因组注释已经没那么火了,现在主要是各种 : comparative -omics的研究 : 还有各种分析软件的开发 : 测序成本降了以后,计算升级以后,好多以前测不起的现在都能测了 : 分析方法要跟上,工具/软件开发肯定有好多活可以做
|
S**********l 发帖数: 3835 | 7 现在存储是个什么情况?
【在 h***0 的大作中提到】 : : 存储用什么系统,是否开源,等等。 : 如果说sequence analysis, 主要是用PERL, : data mining主要用JAVA : data mining 你指什么?结合功能数据? : 现在NGS相关的都很多, de novo的基因组注释已经没那么火了,现在主要是各种 : comparative -omics的研究 : 还有各种分析软件的开发 : 测序成本降了以后,计算升级以后,好多以前测不起的现在都能测了 : 分析方法要跟上,工具/软件开发肯定有好多活可以做
|
e*****t 发帖数: 642 | 8 linux clusters with storage on level of TB.
【在 S**********l 的大作中提到】 : 现在存储是个什么情况?
|
S**********l 发帖数: 3835 | 9 那就是distributed的storage了?我们学校用的还是那种一个head node,file system
的。看来真得改改了。
【在 e*****t 的大作中提到】 : linux clusters with storage on level of TB.
|
d*******e 发帖数: 1649 | 10 我的理解:
测序从机器里面出来的是一段段的nucleotide序列,后续工作一般从这里开始。
粗略的说,一般第一步是mapping,就是把读出来的片段根据reference genome一段段
拼接起来。由于数据量很大,比如现在一条lane至少有几百万个read,快速和有效的算
法是必不可少的。这对计算机的要求也比较高,主要指内存,硬盘读写的速度,和cpu
的快慢。有了这个aligned文件以后,就可以根据自己的问题研究不同的内容。比如找
SNP/SNV,copy number variation,insertion/deletion。由于整个过程处理的是大文
件,linux比windows要有效率的多,而且由于大部分数据处理只是data manipulation
,在这种情况下script language更加方便易用。
所以现阶段做NGS analysis主要有这几个要求:
1 linux的基本操作
2 会至少一种script language,比如perl/python
3 会submit job to cluster,因为绝大多数情况下程序是在服务器而不是单机上运行
上面的介绍可以基本回答你的问题。到目前为止,所有常用的软件都是free的,我认为
如果你一定要开源也没有问题。
我以前没有做过genomics所以不知道趋势的问题。但是现在所有这些analysis都是和测
序的技术紧密相关的,有极大的时效性。目前的测序技术决定了有很多问题是难以解决
的,比如由于两次PCR带来的误差,coverage depth非常不均衡,mapping中repetitive
region的处理,insertion/deletion call的准确性等。如果第三代测序有了
breakthrough,那么所有分析的手段将又有根本的变化。
存储用什么系统,是否开源,等等。
【在 M***7 的大作中提到】 : 比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。 : 以前做过一阵GENOMICS,不知道现在是什么趋势? : Thanks.
|
|
|
n********t 发帖数: 1079 | 11 一般的NFS不行,很快IO就成了瓶颈,现在俺们用的是SONAS
system
【在 S**********l 的大作中提到】 : 那就是distributed的storage了?我们学校用的还是那种一个head node,file system : 的。看来真得改改了。
|
h***0 发帖数: 248 | 12
cpu
manipulation
测序数据的误差也老雷人了
你总结的挺好
【在 d*******e 的大作中提到】 : 我的理解: : 测序从机器里面出来的是一段段的nucleotide序列,后续工作一般从这里开始。 : 粗略的说,一般第一步是mapping,就是把读出来的片段根据reference genome一段段 : 拼接起来。由于数据量很大,比如现在一条lane至少有几百万个read,快速和有效的算 : 法是必不可少的。这对计算机的要求也比较高,主要指内存,硬盘读写的速度,和cpu : 的快慢。有了这个aligned文件以后,就可以根据自己的问题研究不同的内容。比如找 : SNP/SNV,copy number variation,insertion/deletion。由于整个过程处理的是大文 : 件,linux比windows要有效率的多,而且由于大部分数据处理只是data manipulation : ,在这种情况下script language更加方便易用。 : 所以现阶段做NGS analysis主要有这几个要求:
|
S**********l 发帖数: 3835 | 13 不是吧。。。。这个俺们买不起,准备手工搭一个了。。。
【在 n********t 的大作中提到】 : 一般的NFS不行,很快IO就成了瓶颈,现在俺们用的是SONAS : : system
|
S**********l 发帖数: 3835 | 14 听报告都说误差很小?
【在 h***0 的大作中提到】 : : cpu : manipulation : 测序数据的误差也老雷人了 : 你总结的挺好
|
m*****i 发帖数: 628 | 15 精度比sanger sequencing 高不少。
【在 S**********l 的大作中提到】 : 听报告都说误差很小?
|
j******3 发帖数: 5244 | 16 如果测出来的和传统手段相差较远,信谁的
【在 S**********l 的大作中提到】 : 听报告都说误差很小?
|
n********t 发帖数: 1079 | 17 不做WGS会好很多,俺们做WGS,现在的paper要求一般是20X的coverage在80%以上,结
果就是一个BAM200G+。。。
【在 S**********l 的大作中提到】 : 不是吧。。。。这个俺们买不起,准备手工搭一个了。。。
|
h***0 发帖数: 248 | 18
比以前物美价廉,但是误差还是有
而且拼接(assembly)还有很大提升空间
当然这也跟你测什么有关系
大基因组的还是没法做
重测序,一些功能的还可以吧
【在 S**********l 的大作中提到】 : 听报告都说误差很小?
|
S**********l 发帖数: 3835 | 19 存储是便宜的。关键不能备份。备份只能自己搭了
【在 n********t 的大作中提到】 : 不做WGS会好很多,俺们做WGS,现在的paper要求一般是20X的coverage在80%以上,结 : 果就是一个BAM200G+。。。
|
h***0 发帖数: 248 | 20
你覆盖率太低了,不能服众啊
花点钱吧,然后NG就跟你招手了
【在 n********t 的大作中提到】 : 不做WGS会好很多,俺们做WGS,现在的paper要求一般是20X的coverage在80%以上,结 : 果就是一个BAM200G+。。。
|
|
|
n********t 发帖数: 1079 | 21 关键是IO速度,以前俺们用NFS的时候,经常把整个cluster搞得象蚂蚁爬,还会出一堆
stale file handler的问题,现在用SONAS之后情况干改善很多
【在 S**********l 的大作中提到】 : 存储是便宜的。关键不能备份。备份只能自己搭了
|
n********t 发帖数: 1079 | 22 没故事也没戏,而且这种东西bioinformatics的人能排在哪里呢?
【在 h***0 的大作中提到】 : : 你覆盖率太低了,不能服众啊 : 花点钱吧,然后NG就跟你招手了
|
h***0 发帖数: 248 | 23
编故事啊
生物信息的估计最好也就并列一作,排在第N位,在二作隔壁吧
华大反正是这样的
【在 n********t 的大作中提到】 : 没故事也没戏,而且这种东西bioinformatics的人能排在哪里呢?
|
n********t 发帖数: 1079 | 24 不是Li Ding这种级别的大概并列一作都很难
【在 h***0 的大作中提到】 : : 编故事啊 : 生物信息的估计最好也就并列一作,排在第N位,在二作隔壁吧 : 华大反正是这样的
|
h***0 发帖数: 248 | 25
哈哈,她是我偶像!
这种好几百人的文章,木有成就感啊
实际是因为排不上...哈哈
【在 n********t 的大作中提到】 : 不是Li Ding这种级别的大概并列一作都很难
|
n********t 发帖数: 1079 | 26 对了,听说华大算体制外,是不?
【在 h***0 的大作中提到】 : : 哈哈,她是我偶像! : 这种好几百人的文章,木有成就感啊 : 实际是因为排不上...哈哈
|
m*****i 发帖数: 628 | 27 是的。
它是个民办企业。
【在 n********t 的大作中提到】 : 对了,听说华大算体制外,是不?
|
h***0 发帖数: 248 | 28
是的,我觉得其实还挺好
做了一些实事,比许多科研机构强
【在 m*****i 的大作中提到】 : 是的。 : 它是个民办企业。
|
M***7 发帖数: 2420 | 29 这个,俺多年前在华大做过。
【在 m*****i 的大作中提到】 : 是的。 : 它是个民办企业。
|
n******7 发帖数: 12463 | 30 什么叫精度?Phred score?
用NGS测的clone序列好像还不能submit到genbank,得sanger 再测一遍
【在 m*****i 的大作中提到】 : 精度比sanger sequencing 高不少。
|
|
|
c*******d 发帖数: 192 | 31 可以submit到genbank,,没有问题。。
【在 n******7 的大作中提到】 : 什么叫精度?Phred score? : 用NGS测的clone序列好像还不能submit到genbank,得sanger 再测一遍
|
a*****r 发帖数: 209 | 32 说得很好啊
最近打算了解一下处理NGS数据的工具,搜了一下找到了一堆。哪位大侠能建议一些最
常用/效果不错的工具或者软件吗?谢谢!
cpu
manipulation
【在 d*******e 的大作中提到】 : 我的理解: : 测序从机器里面出来的是一段段的nucleotide序列,后续工作一般从这里开始。 : 粗略的说,一般第一步是mapping,就是把读出来的片段根据reference genome一段段 : 拼接起来。由于数据量很大,比如现在一条lane至少有几百万个read,快速和有效的算 : 法是必不可少的。这对计算机的要求也比较高,主要指内存,硬盘读写的速度,和cpu : 的快慢。有了这个aligned文件以后,就可以根据自己的问题研究不同的内容。比如找 : SNP/SNV,copy number variation,insertion/deletion。由于整个过程处理的是大文 : 件,linux比windows要有效率的多,而且由于大部分数据处理只是data manipulation : ,在这种情况下script language更加方便易用。 : 所以现阶段做NGS analysis主要有这几个要求:
|