问一下Next generation sequence analysis主要做点什么内容？ - Biology版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Biology版 - 问一下Next generation sequence analysis主要做点什么内容？

相关主题
● 大家对Nova seq怎么看？	● 做线虫的有人试过WGS+SNP的方法一步测序出mutant吗？
● 请教做单个病人的whole cancer genome 测序的意义	● machine learning来对GWAS结果建模
● 有没有谁有鼓捣生物信息服务公司的想法？	● 【包子求助】call SNPs 有哪些工具？？
● 基因测序未来前景如何，比如临床上，产业上	● 怎样检测一个基因的变异与疾病的关系
● 请高手科普测序技术	● 请教一个DNA sonication的问题
● 2nd generation sequencing能这么用吗？	● 问个基因组的问题
● 请教基因测序	● 求教：如果SNP在dbSNP里找不到怎么办
● 请教个DNA相关的实验问题	● 拿到WGS data，鉴定出一堆SNP后做什么呢？

相关话题的讨论汇总
话题: next话题: 主要话题: analysis话题: sequence话题: 存储

进入Biology版参与讨论

(共1页)

M***7
发帖数: 2420

比如说主要用什么programming language， data minng 主要集中在什么方面, 数据存储用什么系统，是否开源，等等。
以前做过一阵GENOMICS，不知道现在是什么趋势？
Thanks.

d***y
发帖数: 8536

你找个太general了。好几种技术呢

y******e
发帖数: 277

找片nature的review看看就知道啦。
http://www.nature.com/subject/nextgenseq

e**s
发帖数: 513

I have the same questions for bioinformatics people.

存储用什么系统，是否开源，等等。

【在 M***7 的大作中提到】

: 比如说主要用什么programming language， data minng 主要集中在什么方面, 数据存储用什么系统，是否开源，等等。
: 以前做过一阵GENOMICS，不知道现在是什么趋势？
: Thanks.

h***0
发帖数: 248

存储用什么系统，是否开源，等等。
如果说sequence analysis, 主要是用PERL,
data mining主要用JAVA
data mining 你指什么?结合功能数据?
现在NGS相关的都很多, de novo的基因组注释已经没那么火了,现在主要是各种
comparative -omics的研究
还有各种分析软件的开发
测序成本降了以后,计算升级以后,好多以前测不起的现在都能测了
分析方法要跟上,工具/软件开发肯定有好多活可以做

【在 M***7 的大作中提到】

S**********l
发帖数: 3835

data mining 用java???

【在 h***0 的大作中提到】

:
: 存储用什么系统，是否开源，等等。
: 如果说sequence analysis, 主要是用PERL,
: data mining主要用JAVA
: data mining 你指什么?结合功能数据?
: 现在NGS相关的都很多, de novo的基因组注释已经没那么火了,现在主要是各种
: comparative -omics的研究
: 还有各种分析软件的开发
: 测序成本降了以后,计算升级以后,好多以前测不起的现在都能测了
: 分析方法要跟上,工具/软件开发肯定有好多活可以做

S**********l
发帖数: 3835

现在存储是个什么情况？

【在 h***0 的大作中提到】

e*****t
发帖数: 642

linux clusters with storage on level of TB.

【在 S**********l 的大作中提到】

: 现在存储是个什么情况？

S**********l
发帖数: 3835

那就是distributed的storage了？我们学校用的还是那种一个head node，file system
的。看来真得改改了。

【在 e*****t 的大作中提到】

: linux clusters with storage on level of TB.

d*******e
发帖数: 1649

我的理解：
测序从机器里面出来的是一段段的nucleotide序列，后续工作一般从这里开始。
粗略的说，一般第一步是mapping，就是把读出来的片段根据reference genome一段段
拼接起来。由于数据量很大，比如现在一条lane至少有几百万个read，快速和有效的算
法是必不可少的。这对计算机的要求也比较高，主要指内存，硬盘读写的速度，和cpu
的快慢。有了这个aligned文件以后，就可以根据自己的问题研究不同的内容。比如找
SNP/SNV，copy number variation，insertion/deletion。由于整个过程处理的是大文
件，linux比windows要有效率的多，而且由于大部分数据处理只是data manipulation
，在这种情况下script language更加方便易用。
所以现阶段做NGS analysis主要有这几个要求：
1 linux的基本操作
2 会至少一种script language，比如perl/python
3 会submit job to cluster，因为绝大多数情况下程序是在服务器而不是单机上运行
上面的介绍可以基本回答你的问题。到目前为止，所有常用的软件都是free的，我认为
如果你一定要开源也没有问题。
我以前没有做过genomics所以不知道趋势的问题。但是现在所有这些analysis都是和测
序的技术紧密相关的，有极大的时效性。目前的测序技术决定了有很多问题是难以解决
的，比如由于两次PCR带来的误差，coverage depth非常不均衡，mapping中repetitive
region的处理，insertion/deletion call的准确性等。如果第三代测序有了
breakthrough，那么所有分析的手段将又有根本的变化。

存储用什么系统，是否开源，等等。

【在 M***7 的大作中提到】

相关主题
● 2nd generation sequencing能这么用吗？	● 做线虫的有人试过WGS+SNP的方法一步测序出mutant吗？
● 请教基因测序	● machine learning来对GWAS结果建模
● 请教个DNA相关的实验问题	● 【包子求助】call SNPs 有哪些工具？？
进入Biology版参与讨论

n********t
发帖数: 1079

一般的NFS不行，很快IO就成了瓶颈，现在俺们用的是SONAS

system

【在 S**********l 的大作中提到】

: 那就是distributed的storage了？我们学校用的还是那种一个head node，file system
: 的。看来真得改改了。

h***0
发帖数: 248

cpu
manipulation
测序数据的误差也老雷人了
你总结的挺好

【在 d*******e 的大作中提到】

: 我的理解：
: 测序从机器里面出来的是一段段的nucleotide序列，后续工作一般从这里开始。
: 粗略的说，一般第一步是mapping，就是把读出来的片段根据reference genome一段段
: 拼接起来。由于数据量很大，比如现在一条lane至少有几百万个read，快速和有效的算
: 法是必不可少的。这对计算机的要求也比较高，主要指内存，硬盘读写的速度，和cpu
: 的快慢。有了这个aligned文件以后，就可以根据自己的问题研究不同的内容。比如找
: SNP/SNV，copy number variation，insertion/deletion。由于整个过程处理的是大文
: 件，linux比windows要有效率的多，而且由于大部分数据处理只是data manipulation
: ，在这种情况下script language更加方便易用。
: 所以现阶段做NGS analysis主要有这几个要求：

S**********l
发帖数: 3835

不是吧。。。。这个俺们买不起，准备手工搭一个了。。。

【在 n********t 的大作中提到】

: 一般的NFS不行，很快IO就成了瓶颈，现在俺们用的是SONAS
:
: system

S**********l
发帖数: 3835

听报告都说误差很小？

【在 h***0 的大作中提到】

:
: cpu
: manipulation
: 测序数据的误差也老雷人了
: 你总结的挺好

m*****i
发帖数: 628

精度比sanger sequencing 高不少。

【在 S**********l 的大作中提到】

: 听报告都说误差很小？

j******3
发帖数: 5244

如果测出来的和传统手段相差较远，信谁的

【在 S**********l 的大作中提到】

: 听报告都说误差很小？

n********t
发帖数: 1079

不做WGS会好很多，俺们做WGS，现在的paper要求一般是20X的coverage在80%以上，结
果就是一个BAM200G+。。。

【在 S**********l 的大作中提到】

: 不是吧。。。。这个俺们买不起，准备手工搭一个了。。。

h***0
发帖数: 248

比以前物美价廉,但是误差还是有
而且拼接(assembly)还有很大提升空间
当然这也跟你测什么有关系
大基因组的还是没法做
重测序,一些功能的还可以吧

【在 S**********l 的大作中提到】

: 听报告都说误差很小？

S**********l
发帖数: 3835

存储是便宜的。关键不能备份。备份只能自己搭了

【在 n********t 的大作中提到】

: 不做WGS会好很多，俺们做WGS，现在的paper要求一般是20X的coverage在80%以上，结
: 果就是一个BAM200G+。。。

h***0
发帖数: 248

你覆盖率太低了,不能服众啊
花点钱吧,然后NG就跟你招手了

【在 n********t 的大作中提到】

: 不做WGS会好很多，俺们做WGS，现在的paper要求一般是20X的coverage在80%以上，结
: 果就是一个BAM200G+。。。

相关主题
● 怎样检测一个基因的变异与疾病的关系	● 求教：如果SNP在dbSNP里找不到怎么办
● 请教一个DNA sonication的问题	● 拿到WGS data，鉴定出一堆SNP后做什么呢？
● 问个基因组的问题	● 贡献一个SNP/Indel calling pipeline
进入Biology版参与讨论

n********t
发帖数: 1079

关键是IO速度，以前俺们用NFS的时候，经常把整个cluster搞得象蚂蚁爬，还会出一堆
stale file handler的问题，现在用SONAS之后情况干改善很多

【在 S**********l 的大作中提到】

: 存储是便宜的。关键不能备份。备份只能自己搭了

n********t
发帖数: 1079

没故事也没戏，而且这种东西bioinformatics的人能排在哪里呢？

【在 h***0 的大作中提到】

:
: 你覆盖率太低了,不能服众啊
: 花点钱吧,然后NG就跟你招手了

h***0
发帖数: 248

编故事啊
生物信息的估计最好也就并列一作,排在第N位,在二作隔壁吧
华大反正是这样的

【在 n********t 的大作中提到】

: 没故事也没戏，而且这种东西bioinformatics的人能排在哪里呢？

n********t
发帖数: 1079

不是Li Ding这种级别的大概并列一作都很难

【在 h***0 的大作中提到】

:
: 编故事啊
: 生物信息的估计最好也就并列一作,排在第N位,在二作隔壁吧
: 华大反正是这样的

h***0
发帖数: 248

哈哈,她是我偶像!
这种好几百人的文章,木有成就感啊
实际是因为排不上...哈哈

【在 n********t 的大作中提到】

: 不是Li Ding这种级别的大概并列一作都很难

n********t
发帖数: 1079

对了，听说华大算体制外，是不？

【在 h***0 的大作中提到】

:
: 哈哈,她是我偶像!
: 这种好几百人的文章,木有成就感啊
: 实际是因为排不上...哈哈

m*****i
发帖数: 628

是的。
它是个民办企业。

【在 n********t 的大作中提到】

: 对了，听说华大算体制外，是不？

h***0
发帖数: 248

是的,我觉得其实还挺好
做了一些实事,比许多科研机构强

【在 m*****i 的大作中提到】

: 是的。
: 它是个民办企业。

M***7
发帖数: 2420

这个，俺多年前在华大做过。

【在 m*****i 的大作中提到】

: 是的。
: 它是个民办企业。

n******7
发帖数: 12463

什么叫精度？Phred score？
用NGS测的clone序列好像还不能submit到genbank，得sanger 再测一遍

【在 m*****i 的大作中提到】

: 精度比sanger sequencing 高不少。

相关主题
● 请教neurogenomics职业规划	● 请教做单个病人的whole cancer genome 测序的意义
● 生命攸关，请大家帮助我们理解和学习全基因组测序	● 有没有谁有鼓捣生物信息服务公司的想法？
● 大家对Nova seq怎么看？	● 基因测序未来前景如何，比如临床上，产业上
进入Biology版参与讨论

c*******d
发帖数: 192

可以submit到genbank，，没有问题。。

【在 n******7 的大作中提到】

: 什么叫精度？Phred score？
: 用NGS测的clone序列好像还不能submit到genbank，得sanger 再测一遍

a*****r
发帖数: 209

说得很好啊
最近打算了解一下处理NGS数据的工具，搜了一下找到了一堆。哪位大侠能建议一些最
常用/效果不错的工具或者软件吗？谢谢！

cpu
manipulation

【在 d*******e 的大作中提到】

(共1页)

进入Biology版参与讨论

相关主题
● 拿到WGS data，鉴定出一堆SNP后做什么呢？	● 请高手科普测序技术
● 贡献一个SNP/Indel calling pipeline	● 2nd generation sequencing能这么用吗？
● 请教neurogenomics职业规划	● 请教基因测序
● 生命攸关，请大家帮助我们理解和学习全基因组测序	● 请教个DNA相关的实验问题
● 大家对Nova seq怎么看？	● 做线虫的有人试过WGS+SNP的方法一步测序出mutant吗？
● 请教做单个病人的whole cancer genome 测序的意义	● machine learning来对GWAS结果建模
● 有没有谁有鼓捣生物信息服务公司的想法？	● 【包子求助】call SNPs 有哪些工具？？
● 基因测序未来前景如何，比如临床上，产业上	● 怎样检测一个基因的变异与疾病的关系

相关话题的讨论汇总
话题: next话题: 主要话题: analysis话题: sequence话题: 存储

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天