由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - 有没有CNV-Phenotype的数据库?
相关主题
大家来聊聊CNV,methylation和gene expression的关系illumina测序数据分析
全基因组数据研究SV/CNV用什么软件请问做complex disease有前途吗?
应该控制生物新技术的大规模应用有谁谈谈从零开始学NGS数据分析都需要具备什么知识?
请教一个统计学问题,需要多少个SNPs去鉴定一个人请教neurogenomics职业规划
请教做genome structural variation/CNV的牛人有哪些现在生物医学界的大热点都是哪些,求讨论一下,激发灵感
两个靠近的SNP的transmission是独立的吗?求篇全文,万分感谢!
求教生物信息学问题新手请教CNV caller
求建议: tumor suppressor 基因Which method is better for copy number variation detection, NGS or microarray?
相关话题的讨论汇总
话题: cnv话题: phenotype话题: database话题: isca话题: indel
进入Biology版参与讨论
1 (共1页)
n******7
发帖数: 12463
1
想做一点CNV相关的分析,着手找了一下这方面的database,没找到满足要求的:
DGV http://projects.tcag.ca/variation/
这个只有正常人的
CaSNP http://cistrome.dfci.harvard.edu/CaSNP/
这个只有cancer的
DECIPHER http://decipher.sanger.ac.uk/
这个database我看了好久也没搞明白
好像没加入他们的话,只能在search窗口搜特定的disease,而且有些disease居然没有
结果,不知道是不是没有login的缘故
CNVD http://202.97.205.78/CNVD/
这个database看来很美,但是他们的paper完全语焉不详。我不敢直接用,check了一下
原始的reference,发现完全是垃圾data,根本就是搞笑的。
还有什么这方面的database吗? 实在不想自己读文章,整data
thanks!
u*********1
发帖数: 2518
2
楼主,对于CNV,simply forget it
貌似只有DGV是比较靠谱的NIH-sponsor的数据库,但我从来不会用,也不知道怎么用。
你别说CNV-phenotype了,就连CNV本身就没啥靠谱的数据库。
或者说的更明白点,以目前的sequencing技术条件和后期数据处理,CNV
identification和validation几乎不可信。主要是sequencing reads太短,而CNV(包
括copy number variation,del,dup,inv,translocation等等)根本无法通过这么
短的reads被identify。。。其实别说CNV了,就连2bp的indel都很困难,因为比如
intron-exon boundary有时候会有一连串的TTTTTT,那么你要确定到底是多了两个T,
还是少了两个T,是很困难的。
1000 genome project目前有indel和large deletion的database。1000G最后present出
来的indel/deletion我是比较相信的,但问题是他们present出来的只是genome里非常
非常少的他们有能力validation的一小部分,还有很多ambiguious的他们没有100%的把
握是不敢在数据库中release的(但这些ambiguous的indel/deletion中绝对是有很多很
多是真正存在的)。。。这其实就导致1000G的indel/deletion的数据库基本上是
useless的。当然他们在改进。另外注意我这里说的还只是最常见的deletion,另外的
inversion啊dup啊更奇怪的CNV根本没能力鉴别。

【在 n******7 的大作中提到】
: 想做一点CNV相关的分析,着手找了一下这方面的database,没找到满足要求的:
: DGV http://projects.tcag.ca/variation/
: 这个只有正常人的
: CaSNP http://cistrome.dfci.harvard.edu/CaSNP/
: 这个只有cancer的
: DECIPHER http://decipher.sanger.ac.uk/
: 这个database我看了好久也没搞明白
: 好像没加入他们的话,只能在search窗口搜特定的disease,而且有些disease居然没有
: 结果,不知道是不是没有login的缘故
: CNVD http://202.97.205.78/CNVD/

n******7
发帖数: 12463
3
谢谢回复
我目前想看的还没到那么细,我只想看整个gene的deletion/duplication
indel先不考虑,break point在gene内部的也不管
另外,我感觉已有的CNV data中间,大部分还是用的CGH-array检测的,这个自然也不
能对break point的精度有太高要求。而且我个人的感觉是,CNV和SV这两个词虽然很多
时候指同样东西,但是其实跟检测手段有关的。用CGH-array的看到的就是个荧光强度
,所以叫copy number很自然。用sequencing的需要通过alignment的信息来检测,所以
叫structural variation.
我对CNV比较感兴趣是因为它比SNP还是靠谱多了,对disease的贡献很大

【在 u*********1 的大作中提到】
: 楼主,对于CNV,simply forget it
: 貌似只有DGV是比较靠谱的NIH-sponsor的数据库,但我从来不会用,也不知道怎么用。
: 你别说CNV-phenotype了,就连CNV本身就没啥靠谱的数据库。
: 或者说的更明白点,以目前的sequencing技术条件和后期数据处理,CNV
: identification和validation几乎不可信。主要是sequencing reads太短,而CNV(包
: 括copy number variation,del,dup,inv,translocation等等)根本无法通过这么
: 短的reads被identify。。。其实别说CNV了,就连2bp的indel都很困难,因为比如
: intron-exon boundary有时候会有一连串的TTTTTT,那么你要确定到底是多了两个T,
: 还是少了两个T,是很困难的。
: 1000 genome project目前有indel和large deletion的database。1000G最后present出

u*********1
发帖数: 2518
4
那种很巨大的microdeletion,比如5MB,那一般还只能是通过CGH-array来确定。
可且不说array的breakpoint resolution,很多时候array也照样给你一堆的false
positive。这种intensity或者read depth的signal是SV研究里最不可靠的。
另外,纵然在病人里,我相信5MB这种巨大的CNV是很罕见的。所以array给你一堆的
false positive,你如何找出哪个是真的呢?所以你看不管autism还是schizophrenia
的研究,他们的hypothesis都是de novo CNV;他们会拿病人的父母的样本作为control
,这样就可以筛选掉很多很多的artifact了。所以做de novo mutation或者cancer
research,这种有control的研究是很爽的,control可以自动帮我们清除很多artifact

【在 n******7 的大作中提到】
: 谢谢回复
: 我目前想看的还没到那么细,我只想看整个gene的deletion/duplication
: indel先不考虑,break point在gene内部的也不管
: 另外,我感觉已有的CNV data中间,大部分还是用的CGH-array检测的,这个自然也不
: 能对break point的精度有太高要求。而且我个人的感觉是,CNV和SV这两个词虽然很多
: 时候指同样东西,但是其实跟检测手段有关的。用CGH-array的看到的就是个荧光强度
: ,所以叫copy number很自然。用sequencing的需要通过alignment的信息来检测,所以
: 叫structural variation.
: 我对CNV比较感兴趣是因为它比SNP还是靠谱多了,对disease的贡献很大

n******7
发帖数: 12463
5
你说的这个问题也就是我看CNVD的paper的时候的疑问
我不知道他们怎么annotate disease associated CNV的,文章里面根本没提。
我对CNV感兴趣,也是因为以前做psychiatric disease的。一般如果是trio studies,
do novo CNV是很强的因素。不过有的sample没有family信息,就麻烦一些。我看有的
文章是把比较大的CNV,又没有跟DGV有overlap的也算作significant的
总体上,是没有一个统一的标准。 我希望的是有个high quality的dataset,哪怕漏掉
一些,可以先做些基本的分析。有一些false positive也ok,我想做的方法一定程度可
以控制这个。 可能我还是得找个10来篇数据多点的paper自己搞一个。

schizophrenia
control
artifact

【在 u*********1 的大作中提到】
: 那种很巨大的microdeletion,比如5MB,那一般还只能是通过CGH-array来确定。
: 可且不说array的breakpoint resolution,很多时候array也照样给你一堆的false
: positive。这种intensity或者read depth的signal是SV研究里最不可靠的。
: 另外,纵然在病人里,我相信5MB这种巨大的CNV是很罕见的。所以array给你一堆的
: false positive,你如何找出哪个是真的呢?所以你看不管autism还是schizophrenia
: 的研究,他们的hypothesis都是de novo CNV;他们会拿病人的父母的样本作为control
: ,这样就可以筛选掉很多很多的artifact了。所以做de novo mutation或者cancer
: research,这种有control的研究是很爽的,control可以自动帮我们清除很多artifact

a*****t
发帖数: 81
6
For clinical diagnostics, ISCA and DECIPHER are two popular used CNV
database for references. ISCA categorizes CNVs into pathogenic, likely
pathogenic, benign, likely benign, and uncertain types. Due to clinical
validations in deposition data into ISCA, it has fewer CNVs than other
database.
For CNV-phenotype information, you can also use Online Mendelian Inheritance
in Man, which collects information of human genes and genetic disorders.
You can simply download the list of disorders, OMIM number and genetic loci.

【在 n******7 的大作中提到】
: 想做一点CNV相关的分析,着手找了一下这方面的database,没找到满足要求的:
: DGV http://projects.tcag.ca/variation/
: 这个只有正常人的
: CaSNP http://cistrome.dfci.harvard.edu/CaSNP/
: 这个只有cancer的
: DECIPHER http://decipher.sanger.ac.uk/
: 这个database我看了好久也没搞明白
: 好像没加入他们的话,只能在search窗口搜特定的disease,而且有些disease居然没有
: 结果,不知道是不是没有login的缘故
: CNVD http://202.97.205.78/CNVD/

a*****t
发帖数: 81
7
strictly speaking, CNV refers regions of amplification or deletion larger
than 1kb.

【在 n******7 的大作中提到】
: 谢谢回复
: 我目前想看的还没到那么细,我只想看整个gene的deletion/duplication
: indel先不考虑,break point在gene内部的也不管
: 另外,我感觉已有的CNV data中间,大部分还是用的CGH-array检测的,这个自然也不
: 能对break point的精度有太高要求。而且我个人的感觉是,CNV和SV这两个词虽然很多
: 时候指同样东西,但是其实跟检测手段有关的。用CGH-array的看到的就是个荧光强度
: ,所以叫copy number很自然。用sequencing的需要通过alignment的信息来检测,所以
: 叫structural variation.
: 我对CNV比较感兴趣是因为它比SNP还是靠谱多了,对disease的贡献很大

a*****t
发帖数: 81
8
Karyotyping can detect aberrant regions larger than 5MB. aCGH has much
better sensitivity in smaller microdeletion/microduplications than
karyotyping. For CNV larger than 300kb (ACMG recommendations for clinical
reports), false positive rate is pretty low.
On the contrary of your example, autism is a very well studied disorder in
aspect of genotype phenotype correlation. De novo CNV strategy is more
frequently used in CNVs with unknown of clinical significance.

schizophrenia
control
artifact

【在 u*********1 的大作中提到】
: 那种很巨大的microdeletion,比如5MB,那一般还只能是通过CGH-array来确定。
: 可且不说array的breakpoint resolution,很多时候array也照样给你一堆的false
: positive。这种intensity或者read depth的signal是SV研究里最不可靠的。
: 另外,纵然在病人里,我相信5MB这种巨大的CNV是很罕见的。所以array给你一堆的
: false positive,你如何找出哪个是真的呢?所以你看不管autism还是schizophrenia
: 的研究,他们的hypothesis都是de novo CNV;他们会拿病人的父母的样本作为control
: ,这样就可以筛选掉很多很多的artifact了。所以做de novo mutation或者cancer
: research,这种有control的研究是很爽的,control可以自动帮我们清除很多artifact

n******7
发帖数: 12463
9
谢谢回复,非常有用
搜了一下ISCA,这个data可以在NCBI的dbVar database找到,在特定的几个studyID下
面。以前就浏览过dbVar,随机找到一些结果,发现都是SNP,indel,以为没CNV什么事情
关于DECIPHER,请问如果没有注册,可以有办法download他们的数据吗?我好想只能通
过search获取每个disease相关的信息。 另外很奇怪的是,我搜schizophrenia,居然
没有返回结果,不知道为什么。
OMIM database也有CNV的信息?这个我到还没注意,这就去看看,thanks

Inheritance
loci.

【在 a*****t 的大作中提到】
: For clinical diagnostics, ISCA and DECIPHER are two popular used CNV
: database for references. ISCA categorizes CNVs into pathogenic, likely
: pathogenic, benign, likely benign, and uncertain types. Due to clinical
: validations in deposition data into ISCA, it has fewer CNVs than other
: database.
: For CNV-phenotype information, you can also use Online Mendelian Inheritance
: in Man, which collects information of human genes and genetic disorders.
: You can simply download the list of disorders, OMIM number and genetic loci.

1 (共1页)
进入Biology版参与讨论
相关主题
Which method is better for copy number variation detection, NGS or microarray?请教做genome structural variation/CNV的牛人有哪些
请教染色体易位两个靠近的SNP的transmission是独立的吗?
怎么知道老鼠background的比例求教生物信息学问题
求教一个GWAS的问题求建议: tumor suppressor 基因
大家来聊聊CNV,methylation和gene expression的关系illumina测序数据分析
全基因组数据研究SV/CNV用什么软件请问做complex disease有前途吗?
应该控制生物新技术的大规模应用有谁谈谈从零开始学NGS数据分析都需要具备什么知识?
请教一个统计学问题,需要多少个SNPs去鉴定一个人请教neurogenomics职业规划
相关话题的讨论汇总
话题: cnv话题: phenotype话题: database话题: isca话题: indel