p***a 发帖数: 16 | 1 别听楼上外行胡说~~~
现在的高通量生物简直就是统计应用的热土
你PhD老板名气怎么样, 名气还可以的话你就试试常青藤大老板的postdoc吧, 统计/生
统坑比较少, 一般AP都不带postdoc, 基本比较大的老板才招人, 所以找位置
networking很重要, 问问你老板在这里和上面帖子里认识谁啊
Eric Xing 也可以试试, 很有米, 但他现在偏machine learning了, 比较新的cancer和
epi都做的不多
Hongzhe Li 也可以, 理论应用都赞, 最近做microbiome, CNV calling
想跟外国老板的话, david dunson, mike west, peter park, manolis kellis,
都是做cancer或是epi的, 在computational biology或是CS的老板对编程可能要求高,
生统或是统计的对理论要求比较高
上次说的Jun Liu和david dunson, mike west是Bayesian, 其他人都不完全是, 不过也
都做的
祝楼主好运 |
|
s******s 发帖数: 13035 | 2 和nanopore根本两回事啊。
这玩意儿不是直接测序用的,只是通过荧光标记DNA上特定位置,
用这个做marker看看CNV这类的。不知道和NGS平台的数据整合做
的怎么样,整合的好的话,估计还有点意思
nanopore |
|
b****r 发帖数: 17995 | 3 如果确实能和已有的CNV数据库很好的互相沟通起来,成本又够低,我们这种临床lab绝
对会有兴趣的
它还有个好处是不要扩增,如果确实如此,而且starting material要求得很少,那还
是有niche的,现在的芯片和NGS技术需要的DNA太多了,很不方便 |
|
d****n 发帖数: 1637 | 4 Is it different from CNVs(copy number variants),
or just synonymous?
these two terms confused me.
anyone can guide me though a little bit?
thanks |
|
u*********1 发帖数: 2518 | 5 Generally I think they are the same.
CNVs can refer to any copy number change, either benign/natural or
pathogenic.
While "somatic copy number aberrations", with "somatic", is obviously used
in cancer research.
Of course, I don't know if "aberration" indicates pathogenic, because the
word "aberration" literally means anything that deviates from the normal
state. |
|
t**l 发帖数: 109 | 6 CNV和SV是什么
其实我一直觉得non coding 肯定是重要的。non-coding region有那么多enhancer,真
核生物进化出来内含子,目的就是要管理基因的表达。所以那么内含子,垃圾DNA。都
是有用的,只不过我们不知道有什么用处. |
|
f******e 发帖数: 887 | 7 Twin Res Hum Genet. 2012 Dec;15(6):737-45. doi: 10.1017/thg.2012.61. Epub
2012 Sep 28.
Twins, tissue, and time: an assessment of SNPs and CNVs.
mail to : f******[email protected] |
|
y***k 发帖数: 40 | 8 我认为Mrfast之类本质上还是readdepth,只不过他改进multiple alignment的reads的
计算.
还有想问一句,你是怎么“combine”的呢? |
|
u*********1 发帖数: 2518 | 9 mrFAST/mrsFAST,是alignment工具,对应的是BWA/Bowtie,
mrFAST得到的alignment的文件基础上,Eichler group又开发出一套基于各种metrics
的软件,比如你说的readdepth的叫MRCaNaVar,对应BWA系列的CNVnator
combine的问题,其实我是最弱智的,就是分别call,然后bedtools找overlap
我现在能做的也就这么多;有的人会在这个基础之上做local assembly
当然了,也有一些软件,会基于两种三种signal来找calling,比如Genome STRiP啦,
DELLY啦;但我感觉效果都差不多;只要read length不增长,不管你如何玩弄program
的花样这个领域还是没有长足进展
我的principle是,我只需要找罕见的SV,而不是optimally的找所有的SV;比如一个疾
病是由一个obvious的罕见的10kb的deletion造成的,我相信combine以上几个signal肯
定可以找到 |
|
k********g 发帖数: 56 | 10 Thank you very much. I cannot type Chinese on the desktop in my office. I
apologize for the inconvenience.
I am actually interested in the repeats, and that is why I looked in MrFast+
MrCaNaVar. But I cannot find the algorithm behind MrCaNaVar, though the
algorithm of MrFast is well documented. CNVnator, on the other hand, is not
sensitive to the duplication in my experience.
Regarding to Split-read, this is the first time I heard that SR methods are
most accurate. The read length of my data is ... 阅读全帖 |
|
u*********1 发帖数: 2518 | 11 SR methods are definitely the most accurate because it provides the exact
breakpoint; but we're not lucky enough to have reads encompassing
breakpoints all the time even for SV in unique region, not to mention those
complex structural variants involving repeats/duplication.
So till now, SV field or even indel calling, I would say still quite messy
with lots of false positives, and whole field is lagging behind compared
with SNP calling.
If you are interested in repeats, please first define "repe... 阅读全帖 |
|
k********g 发帖数: 56 | 12 多谢,受教了。 我是搞统计出身,现阶段确实是更关心比较长 indel,因为从我们的
角度来看建模比较简单。您提过的几个paper我会仔细研究一下。多谢。
those
you
nucleotids
around |
|
o***a 发帖数: 28 | 13 我感觉array CGH能detect large SV,但是无法准确定位breakpoint。
再说split-read method,detect deletion是没有问题的,任意长度都可以,detect
insertion就只能小于read length了,另外它找的duplication只限于tandem
duplication
Delly是比较新的软件,融合了split-read和read pair的方法。用起来也比较简单。 |
|
A**r 发帖数: 43 | 14 除了repeat expansion之外,CNV也高频率的出现在ASD之类的neurological disorder
里面,不知道为什么。这些可能都是neurological disorder的特殊之处。
会不会是由于,神经系统之外的基因出现了repeat expansion,可能没啥显著
phenotype,或者直接致死?神经系统面对基因表达的变化,可能会出现不致死但是很
明显的phenotype。
repeat expansion对于人类大脑的进化,会不会有什么特殊意义?或者C9orf72是不是
本身进化就比较快? |
|
k*****n 发帖数: 417 | 15 http://news.sciencenet.cn/htmlnews/2014/1/287264.shtm
2014年1月《自然—方法学》(Nature Methods)上发表年度特别报道,将“单细胞测
序”(Singled out for sequencing)的应用列为2013年度最重要的方法学进展。
近几年来,基于单细胞测序技术的科学研究取得了突飞猛进的发展,其成果有望为一些
重要的医学问题提供新的解决方案。文章总结了2013年单细胞测序技术对于人类早期发
育、癌症以及神经科学研究等几个重点领域的最新应用成果。文章特别指出,来自中国
北京大学的一些研究团队在这方面完成了许多优秀的工作,做出了突出的贡献。
单细胞基因组扩增新技术(MALBAC)最早由哈佛大学谢晓亮教授发明,相关论文2012年
发表于《科学》 (Science)杂志。该方法通过形成闭合环来抑制DNA片段被重复地复
制,以保持DNA扩增的均匀性,解决了传统方法对单细胞基因组扩增的强烈偏好性的问
题。这项突破在单个细胞水平实现了全基因组93%的高覆盖率,同时也能准确检测单个
肿瘤细胞中的染色体拷贝数异常。
2013年是单... 阅读全帖 |
|
l******e 发帖数: 125 | 16 现在nimblegen CGH array停产了,有人能推荐类似或更好的替代产品么?多谢 |
|
|
g**a 发帖数: 2129 | 18 关键是选择哪几个SNP。CNV, rare variant的发生概率不一样,更何况还有linkage
disequilibrium。根本不可能按照随机事件的概率来假设。所以选择SNP很重要。这方
面应该有很多文章讨论的。DNA测试选的那几个SNP都是有原因的。话说,要达到你的目
的,直接选用那些SNP不就可以了吗? |
|
M*P 发帖数: 6456 | 19 看着像CNV call出来的假阳性。这种array的东西未必是真的。 |
|
s*******9 发帖数: 177 | 20 CNV Call 出来的假阳性是什么意思?假阳性的原因是什么? 不是说羊穿非常准确吗? |
|
m***T 发帖数: 11058 | 21 如果只是microarray结果,不一定非常准确(要看用的平台和方法以及最后分析的手段
)另外他们有没有其它的手段来validate这个发现。我粗略查了查我们的数据库,此位
点的duplication和遗传疾病相关的有下面这么几篇,你如果有时间可以读一读。另外
,似乎所有的研究都处于experimental或early studiy in human,所以临床上的意义
不是特别大。我自己没有读这些paper,所以不知道文章里的研究是不是非常match你的
情况。希望能对你有所帮助。
Warburton, D.; Ronemus, M.; Kline, J.; Wigler, M.; Jobanputra, V.; Levy, D.;
Anyane-Yeboa, K.; Chung, W.; Awad, D.
CNVs contributing to the cause of congenital heart defects may include not
only those containing candidate genes but regions more commonly as... 阅读全帖 |
|
M*P 发帖数: 6456 | 22 羊穿精确到定位一些显微镜能看到的东西,分辨率其实很低,但是能精确的看出一些大
毛病。
microarray能看到显微镜看不到的东西,但是现在的统计工具还是比较难完全相信。只
看到一个显著的区间,没有replicate,这个结果有多可信,很难讲清。换句话说,完
全正常的人没准偶尔也能看见一个区间有CNV。另外这种区间的变化,医学上还没解释
,很可能很多人都有这种变化。 |
|
m******c 发帖数: 830 | 23 哪位干CNV的能不能查查正常人群的数据,1000 genome 啥的,有没有这一区间的
duplication?如果有,那就基本说明沒事 |
|
s******s 发帖数: 13035 | 24 我说了, NGS的BAM和FASTQ都在CGHub; 所有其他能infer sequence的东西,比如
genotype, vcf,要password;其他的一切东西,包括蛋白分析,methylation, cnv,
maf(tumor - normal), gene表达, 等绝大多数,都在open access, 基本上都能
assembler弄下来。
你的450k,估计你不会自己去分析raw data吧,分析过的beta value啥都很小的。
用assembler搞450k尤其方便,因为它可以帮你搞gene level的平均,然后把gene
名字搞成hugo. TCGA的gene model是GAF2,那个是用起来相当的头痛,和其他地方
数据比较的烦死我。
matrix |
|
a**m 发帖数: 184 | 25 RT,
擅长方向:
1. Structural variants (esp CNV, LOH) by NGS, etc
2. Cancer genomics (mutational profiling by NGS, tumor heterogeneity by bulk
/single-cell sequencing, etc)
methodology 和 data analysis 都做,欢迎站内!包子答谢 |
|
n******7 发帖数: 12463 | 26 没有统计数据
level3 的CNV数据我记得还主要是microarray的
处理过的WGS的数据得申请才能弄到 |
|
n******7 发帖数: 12463 | 27 谢谢详细解答,有些是我知道的,有些细节我确实不清楚
我之前就发现TCGA的CNA主要都是array平台来的,而且很多信息不是很清楚(比如有个
cnv/nocnv的注释,去年ACCR我问了TCGA的人,也没完全说明白)
我用TCGA的data matrix 入口download过所有的lv3 data和部分lv2 data
他们那个bulk download没搞清楚怎么用...
TCGA Assembler和firebrowse都没用过,annotation database也是第一次听说
TCGA把这么重要的东西藏这么深也太挫了,我现在文章都写好了。。
我决定先投了,reviewer让QC再QC吧,结果应该只会更好
我们需要WGS data, 在TCGA dcc 只有WES的data,WGS都在cgHub
但是我们不想自己从bam开始处理,想直接拿SNV/SV的calling,这个ICGC可以提供,所
以我们需要access
昨天我想要一个很简单的统计,比如每个cancer sample,整个genome上%多少的region
是double deletion, single dele... 阅读全帖 |
|
s******s 发帖数: 13035 | 28
如果成本不是主要考量,现在做研究的都是NGS了吧。
TCGA以前用SNP6做CNV,后来改成NGS,现在NCI新的project基本上
全都DNA-Seq, RNA-Seq, 基本都不用array了。用Seq的好处是能call
出一大堆数据来,不像array根据不同的purpose可能要不同的array |
|
c******e 发帖数: 350 | 29 Thank everyone for input!
看来我们应该留意NGS发展, 同时 test the CNV analysis from NGS data.
同时利用已有的microassay platform, 上马 SNP array. 一来填补 NGS 未成型时的空
白; 二来,作为QC, 对NGS进行检测. |
|
r**********e 发帖数: 587 | 30 还有,
如果是deep seq,那么可以做各种各样的structural variation
CNV只是SV的一种而已 |
|
s******s 发帖数: 13035 | 31 足够了,我看15-20就行了,能call CNV/SV.
你去CGHub看一下TCGA里面HMS-RK做的low-pass WGS就行了,就是干这个的 |
|
s******s 发帖数: 13035 | 32 足够了,我看15就行了,能call CNV/SV, 再低点也没啥问题.
你去CGHub看一下TCGA里面HMS-RK做的low-pass WGS就行了,就是干这个的 |
|
s******s 发帖数: 13035 | 33 足够了,我看15就行了,能call CNV/SV, 再低点也没啥问题.
你去CGHub看一下TCGA里面HMS-RK做的low-pass WGS就行了,就是干这个的 |
|
o********c 发帖数: 1257 | 34 我觉得bioinformatics的dilemma是:
如果你是搞算法的,比如,mutation calling或者CNV,光是设计算法,开发软件,了
解别人的算法,和比较各种工具的performance,到写paper,到最后发出来,就够一个
人,甚至一个小组忙活很长时间的。这种情况下,不可能有太多精力去了解其他的分析
,比如gene expression什么的。
如果一个人什么都做过,反过来就不太可能什么都精通。一方面对一个软件的算法需要
相当的了解,另一方面,需要真正做过几个real data才能有经验。如果再加强点和项
目相关的生物的学习,那么就很难对某个领域了解的很深。所以最后只能run下现成的
软件,最多做点小优化。
总儿言之,我觉得需要懂这么大杂烩的知识,相对于工资和地位,真的很不值。不如读
个CS硕士或者统计,直接工作 |
|
o********c 发帖数: 1257 | 35 我觉得bioinformatics的dilemma是:
如果你是搞算法的,比如,mutation calling或者CNV,光是设计算法,开发软件,了
解别人的算法,和比较各种工具的performance,到写paper,到最后发出来,就够一个
人,甚至一个小组忙活很长时间的。这种情况下,不可能有太多精力去了解其他的分析
,比如gene expression什么的。
如果一个人什么都做过,反过来就不太可能什么都精通。一方面对一个软件的算法需要
相当的了解,另一方面,需要真正做过几个real data才能有经验。如果再加强点和项
目相关的生物的学习,那么就很难对某个领域了解的很深。所以最后只能run下现成的
软件,最多做点小优化。
总儿言之,我觉得需要懂这么大杂烩的知识,相对于工资和地位,真的很不值。不如读
个CS硕士或者统计,直接工作 |
|
r**********e 发帖数: 587 | 36 说下我的comments吧
DELLY其实是比较新的软件,综合了paired-end discordant和split-read两种signal来
make calls,自然是不错的,而且也是1000genome使用的软件之一,而且最后结果提供
vcf format
SV领域最早最原始的三个软件,我个人认为的,read-depth的CNVnator;discordant的
breakdancer;以及split-read的Pindel;后续陆陆续续出来了很多类似软件,其实大
同小异,很多都是为了发文章而发文章的trash paper。上面说的三个软件,虽然都是
基于一种signal,但都算元老,1000genome使用的软件,而且关键是有四五年历史,很
多人使用,所以一直在update,debug,maintain,使用起来比较上手。但CNVnator是
不可能计算translocation的,Pindel可以找到translocation但Pindel是针对比较小的
structural variation,因为big SV的computational cost太高
还有一个超级好的... 阅读全帖 |
|
s******s 发帖数: 13035 | 37 WGS比较贵,现在还是WXS比较多,很多disease可能就没做WGS。
不过慢慢会有的。其实做染色体易位,CNV和disease的那么多,后面
都可以看成SV相关啊 |
|
r**********e 发帖数: 587 | 38 WXS? whole exome?
是的我很赞同。我就是在找基于WGS成功寻找到疾病相关的CNV/SV的例子。
因为关于WGS的methodology已经发展了好多年了,估计从2009年到现在都五六年了,看
到一篇篇bioinformatics的方法学发的热火朝天。但却没看到什么在疾病里的运用,不
挺可笑么。另外,whole-genome seq到现在都没有普及么?比如测个20个WGS这个对于
一般lab都无法承受么? |
|
c*********r 发帖数: 1312 | 39 不懂,帮顶!
顺便问几个naive的问题,不同个体之间的各种SVs大概有多少?这些SVs是不是对于以
后个性化治疗什么的极为重要?
现在哪种测序技术对于准确检测出这些SVs更有优势?Illumina?Ion Torrent? PacBio
? Complete Genomics?其它?数据分析看样子还是一个巨大的挑战?先做de novo
assembly然后和reference比较是否可行? |
|
c*********r 发帖数: 1312 | 40 谢科普!
我以前也觉得PacBio错误率高,嫌弃它。现在搞明白了,PacBio可以通过对同一个分子
重复测序来correction,把错误率降到非常低。但是PacBio成本比较高,比Illumina还
是贵不少。不缺钱的话应用PacBio可以做不少事情,de novo assembly在好几个物种里
一个染色体就是一个contig,在人里边还是差一些但是比illumina要厉害。
等PacBio成本降下来了,肯定对SV研究会有新的方法和认识。
translocation,
repetitive |
|
r**********e 发帖数: 587 | 41 What's the average length of contig in Pacbio?
I remember like 10KB?
Maybe I'm too out-dated
If it's only 10KB....well think about human chromosome1, 100000kB level? |
|
c*********r 发帖数: 1312 | 42 PacBio P6-C4 单个read读长可以达到50%大于20KB
组装的contig长度最长能达到多少我不知道,和测序深度有关。人的染色体50M到300M
大小。目前还没有见过de novo assembly可以组装成完整染色体的。
单看de novo assembly,PacBio完败Illumina。 |
|
d*****i 发帖数: 52 | 43 我羊穿后加做了microarray,这个结果是说小于多少size的就不报告了吗,那到底是不
是正常啊
NOTE: It is possible that this individual's DNA showed one or more copy
number variants
(CNV's) of no clinical significance that are not listed in this report. Copy
number
alterations that do not contain any genes, and copy number gains less than 1
Mb and losses
less than 400 Kb in size with no known clinical significance are not
reported. Uniparental
isodisomy/regions of homozygosity less than 8 Mb in size will not be
reported unless
accompanie... 阅读全帖 |
|
b**********l 发帖数: 116 | 44 生物小白请教一个问题。可能也是英文的问题,总听人说“call”这个词,不知道具体
指的啥意思。比如(在bioinformatic背景下,用RNAseq数据研究cancer之类的),提
到“make the right call”,就是统计上所说的“拒绝原假设”检测出来疾病么?也
就是statistical power拒绝原假设的能力大小么?
还有就是,听bioinformatician提到希望找到一个方法“make the variant call
better”指的是啥意思?是说想要能找出来新的CNV,SNV之类的方法吗?
跪谢! |
|
y********n 发帖数: 16 | 45 Contact me by mitbbs email:
Essential Job Responsibilities
• Contribute to the development of multivariate biomarkers which are
predictive of drug response using broad array of experimental data generated
internally or available from external sources. This key task will involve
judicious application of statistics and machine learning while collaborating
with other scientists.
• Build statistical models and analyse experimental data from diverse
platforms, including in vivo experiment... 阅读全帖 |
|
h****n 发帖数: 333 | 46 next generation sequencing和array看的东西不一样,目前的技术水平还无法互相替
代。前者看SNV和小的indel,后者看CNV
对于大片段缺失,high resolution array是目前最精确的办法。next generation
sequencing,不管是targeted还是exome,目前的算法都没办法准确看到大片段缺失的
。目前的几个从exome sequencing data看大片段缺失的算法,比如Conifer之类,都达
不到诊断精度的,也就在research lab里用着玩玩。nextgen主要看的是SNV,顶多小的
indel(就算小的indel目前的calling algorithm也不算太准,相比SNV而言)。
对于lz那个7q32,如果目前只有karyotyping结果,那确实不够准,array能找到更准确
的缺失位置。那个abstract里的7q32q34已经做过array了,精度不是问题了,反正
目前也没有更精准的办法了,再做nextgen也没用的。关键问题还是这个区域到底是不
是pathogenic的。我没有看到完整的pap... 阅读全帖 |
|
h****n 发帖数: 333 | 47 这篇文章。。。汗一个。microarray这个说法也太大了,有expression array,有SNP
array,有arrayCGH,这篇文章全放一块儿了。尤其关于diagnostics和cytogenetics那
段很不客观。价格高低数据分析方便与否确实是一个因素,但是clinical labs用
arrayCGH绝对不是因为他们太conservative
对于SNV,clinical labs早就开始开始用nextgen了,targeted seq现在是在各个
clinical labs遍地开花,exome也已经有很多很多clinical labs有了。
不管怎样目前的技术水平nextgen是不能取代arrayCGH来看大片段缺失的。对于小的
indel,nextgen还算勉强可以,对于大的CNV,nextgen的结果完全不行。当然我相信,
将来nextgen技术发展了,不管是测序coverage精度还是分析水平提高了,是有可能达
到arrayCGH的水平的。
至于NIPT,确实是用nextgen方便,不过目前还只offer chr13,18,21,X,还有极少数几
个超大片段... 阅读全帖 |
|
G*******s 发帖数: 4956 | 48 现在必须有帐号才能用这个觉得不如以前方便。
这个软件现在圣经很全了,它时不时支持某些圣经版本译本的离线下载.
现在ESV,NIV,CNV等都有离线版了. |
|