R*********e 发帖数: 53 | 1 如果病人样品做全基因组测序,是不是都得从头拼接?
为什么?
谢谢 |
c*********r 发帖数: 1312 | 2 这个问题我也很感兴趣,期待版上高人回答。
我的理解,人跟人之间的基因组的差异还是有一些,尤其是病人的话,大家肯定想找出
差异。如果简单的把序列map到reference genome上边,有些差异比如SNP,小的indel
还是可以找得到,但是很多复杂的差异,大片段的indel、invertion什么的,也许就不
太容易找到了。
这里有篇很好的2015年的nature review:Genetic variation and the de novo
assembly of human genomes
“Short-read massively parallel sequencing has revolutionized our ability to
discover genetic variation but is insufficient to generate high-quality
genome assemblies or resolve most structural variation. Full resolution of
variation is only guaranteed by complete de novo assembly of a genome. ”
所以我觉得de novo assembly和长片段的测序会更有优势。 |
g*****n 发帖数: 250 | |
r**********e 发帖数: 587 | 4 de novo assembly,我觉得对于全基因组,很难,计算机运算的耗费太大
过去尝试过一下,好像最基础的都需要very big RAM, 比如一个node需要256GB的RAM
, 这个对于一般学校很难有这样的大型运算cluster
另外,如果reads很短,纵然你做assembly也会很难,因为overlap的区域很短。
所以high-quality long reads还是我们要等待的革命性技术。
推荐一个很好的assembler-based SV calling: http://cortexassembler.sourceforge.net/
现在比较实际的是,用其他办法找到的SV或SNP candidate,然后做local assembly来
精确breakpioint,计算量大大大大大降低
以后long reads出现或者普及,我们就少了很多BWA的那种multiple alignment的麻烦
,不管mapping还是assembly都可行
当然了,对于novel insertion,这种ref里没有的sequence,当然assembly是王道。目
前short reads对于novel big insertion基本是一点办法都没有。
Anyway未来high-quality high-throughput long reads出现,基因组学会有新革命,
会迅速产生大量疾病遗传上的新发现
当然我也很久很久没接触过assembly,难免信息落后偏颇,希望高人指正
indel
to
【在 c*********r 的大作中提到】 : 这个问题我也很感兴趣,期待版上高人回答。 : 我的理解,人跟人之间的基因组的差异还是有一些,尤其是病人的话,大家肯定想找出 : 差异。如果简单的把序列map到reference genome上边,有些差异比如SNP,小的indel : 还是可以找得到,但是很多复杂的差异,大片段的indel、invertion什么的,也许就不 : 太容易找到了。 : 这里有篇很好的2015年的nature review:Genetic variation and the de novo : assembly of human genomes : “Short-read massively parallel sequencing has revolutionized our ability to : discover genetic variation but is insufficient to generate high-quality : genome assemblies or resolve most structural variation. Full resolution of
|
c*********r 发帖数: 1312 | 5 是的,de novo assembly对计算要求太高,数据要全部load到内存里,所以特别吃内存
,瓶颈不在CPU。
要是搞生物信息的和CS的能开发出更快速、准确、对硬件要求低的算法就好了。
RAM
【在 r**********e 的大作中提到】 : de novo assembly,我觉得对于全基因组,很难,计算机运算的耗费太大 : 过去尝试过一下,好像最基础的都需要very big RAM, 比如一个node需要256GB的RAM : , 这个对于一般学校很难有这样的大型运算cluster : 另外,如果reads很短,纵然你做assembly也会很难,因为overlap的区域很短。 : 所以high-quality long reads还是我们要等待的革命性技术。 : 推荐一个很好的assembler-based SV calling: http://cortexassembler.sourceforge.net/ : 现在比较实际的是,用其他办法找到的SV或SNP candidate,然后做local assembly来 : 精确breakpioint,计算量大大大大大降低 : 以后long reads出现或者普及,我们就少了很多BWA的那种multiple alignment的麻烦 : ,不管mapping还是assembly都可行
|