由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - 有没有tumor CNA的统计数据
相关主题
请大牛科普下这几个database:Oncomine, TCGA, CCLE, cBioPortal招聘计算生物/生物信息学博后,tumor sequencing 方向, NIH/NCI
有没有谁有鼓捣生物信息服务公司的想法?做肿瘤的大神们帮忙看一下
做生物实验能偷懒还获得很多data吗?Heng Li长得就像个天才码农啊
copy number variationNCBI 的 SRA 停了?
用WGS寻找疾病structural variation的文章翻墙求合作
TCGA 数据库求助: BRCA1突变肿瘤下两种subsets药物敏感度比较GFP or luciferase or others?
生物医学图片分享工具平台sciencewallTwo postdoctoral fellow position available in UTSouthwestern Medical Center
在细胞内A诱导B,但在肿瘤标本中不是,为什么?谢谢!询问一个关于肿瘤免疫的问题
相关话题的讨论汇总
话题: tcga话题: data话题: tumor话题: cnv话题: cna
进入Biology版参与讨论
1 (共1页)
n******7
发帖数: 12463
1
我想统计一下tumor genome里面copy number的分布
比如
CN = 0, 1%
CN = 1, 10%
CN = 2, 85%
...
有没有这样各种tumor 各种sample在一起的总体统计?
y*******1
发帖数: 164
2
TCGA?
n******7
发帖数: 12463
3
没有统计数据
level3 的CNV数据我记得还主要是microarray的
处理过的WGS的数据得申请才能弄到

【在 y*******1 的大作中提到】
: TCGA?
s******s
发帖数: 13035
4
有啊。TCGA一堆数据, SNP6 level 3 segmentation data, open-access
没空研究的,去看一下Broad ABSOLUTE的paper,可能TCGA pan-cancer的paper也有

【在 n******7 的大作中提到】
: 我想统计一下tumor genome里面copy number的分布
: 比如
: CN = 0, 1%
: CN = 1, 10%
: CN = 2, 85%
: ...
: 有没有这样各种tumor 各种sample在一起的总体统计?

s******s
发帖数: 13035
5
low coverage WGS的raw data是protected, 不过算出来的CNA应该是open-access的。
TCGA里面只有具体的sequence或者genotype是protected, 其他的都能拿到

【在 n******7 的大作中提到】
: 没有统计数据
: level3 的CNV数据我记得还主要是microarray的
: 处理过的WGS的数据得申请才能弄到

n******7
发帖数: 12463
6
TCGA 的CNA基本都是microarray based
基于WGS的data存在CGhub
这些data process过后再ICGC有(我在TCGA死活没找到)
而这个是controlled access

【在 s******s 的大作中提到】
: low coverage WGS的raw data是protected, 不过算出来的CNA应该是open-access的。
: TCGA里面只有具体的sequence或者genotype是protected, 其他的都能拿到

s******s
发帖数: 13035
7
你的理解是错误的。你要找什么data,我也许可以帮到你。
只有raw sequence BAM和FASTQ在CGHub, 其他所有的都在TCGA DCC.
DCC有两个入口,controlled里面是所有有序列的data, 包括genotyping,
variant,和一些pcr sequencing。如果是mutation (tumor - normal), CNA
这些,全部都是open access.
CNA主要是AFFY SNP6的,也有一些其他的平台,包括low coverage WGS,
这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
虽然多,但是并不是所有的disease都有所有的data type.
TCGA的data我一般在三个地方找,DCC是一处,或者用TCGA Assembler
拉,另外常见的open data可以去firebrowse.org下载。firebrowse的好处是
QC有问题的data都扔掉了,然后都combine成matrix form。你要自己找DCC
的data,必须去TCGA annotation database去找哪些data 必须QC扔掉(
这个非常重要!!!我和许多做过TCGA data analysis的人聊过,大多数
不知道这个annotation是啥)。
ICGC是另外一回事。他们主要看sequencing data,而且只用一部分他们
认为好分析的或者质量好的BAM来分析,你要看非TCGA的data很有用,
但是对TCGA来说,非常的不全。

【在 n******7 的大作中提到】
: TCGA 的CNA基本都是microarray based
: 基于WGS的data存在CGhub
: 这些data process过后再ICGC有(我在TCGA死活没找到)
: 而这个是controlled access

n******7
发帖数: 12463
8
谢谢详细解答,有些是我知道的,有些细节我确实不清楚
我之前就发现TCGA的CNA主要都是array平台来的,而且很多信息不是很清楚(比如有个
cnv/nocnv的注释,去年ACCR我问了TCGA的人,也没完全说明白)
我用TCGA的data matrix 入口download过所有的lv3 data和部分lv2 data
他们那个bulk download没搞清楚怎么用...
TCGA Assembler和firebrowse都没用过,annotation database也是第一次听说
TCGA把这么重要的东西藏这么深也太挫了,我现在文章都写好了。。
我决定先投了,reviewer让QC再QC吧,结果应该只会更好
我们需要WGS data, 在TCGA dcc 只有WES的data,WGS都在cgHub
但是我们不想自己从bam开始处理,想直接拿SNV/SV的calling,这个ICGC可以提供,所
以我们需要access
昨天我想要一个很简单的统计,比如每个cancer sample,整个genome上%多少的region
是double deletion, single deletion,之类,不知道哪里有这种数据。也许可以根据
vcf文件算一下?

你的理解是错误的。你要找什么data,我也许可以帮到你。
只有raw sequence BAM和FASTQ在CGHub, 其他所有的都在TCGA DCC.
DCC有两个入口,controlled里面是所有有序列的data, 包括genotyping,
variant,和一些pcr sequencing。如果是mutation (tumor - normal), CNA
这些,全部都是open access.
CNA主要是AFFY SNP6的,也有一些其他的平台,包括low coverage WGS,
这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
虽然多,但是并不是所有的disease都有所有的data type.
TCGA的data我一般在三个地方找,DCC是一处,或者用TCGA Assembler
拉,另外常见的open data可以去firebrowse.org下载。firebrowse的好处是
QC有问题的data都扔掉了,然后都combine成matrix form。你要自己找DCC
的data,必须去TCGA annotation database去找哪些data 必须QC扔掉(
这个非常重要!!!我和许多做过TCGA data analysis的人聊过,大多数
不知道这个annotation是啥)。
ICGC是另外一回事。他们主要看sequencing data,而且只用一部分他们
认为好分析的或者质量好的BAM来分析,你要看非TCGA的data很有用,
但是对TCGA来说,非常的不全。

【在 s******s 的大作中提到】
: 你的理解是错误的。你要找什么data,我也许可以帮到你。
: 只有raw sequence BAM和FASTQ在CGHub, 其他所有的都在TCGA DCC.
: DCC有两个入口,controlled里面是所有有序列的data, 包括genotyping,
: variant,和一些pcr sequencing。如果是mutation (tumor - normal), CNA
: 这些,全部都是open access.
: CNA主要是AFFY SNP6的,也有一些其他的平台,包括low coverage WGS,
: 这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
: 虽然多,但是并不是所有的disease都有所有的data type.
: TCGA的data我一般在三个地方找,DCC是一处,或者用TCGA Assembler
: 拉,另外常见的open data可以去firebrowse.org下载。firebrowse的好处是

n******7
发帖数: 12463
9
刚看到这个回复
这两个paper都看过,我再看看有没处理过的数据
实在没有就算了,这两天折腾的结论是CNA对我们做的这个方法干扰很小
不知道算好事还是坏事。。

【在 s******s 的大作中提到】
: 有啊。TCGA一堆数据, SNP6 level 3 segmentation data, open-access
: 没空研究的,去看一下Broad ABSOLUTE的paper,可能TCGA pan-cancer的paper也有

s******s
发帖数: 13035
10
我一般都是直接去
tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
出来。
ICGC的mutation可以下载了么?我知道刚差不多finish了sanger pipeline; 其他
的两个刚开始。
关于cnv/nocnv,我的理解是cnv是tumor的cnv, nocnv大概是tumor relative normal
的cnv. 意思就是,既然你没有normal的cnv data, 那么一般研究应该用nocnv, 也就是
把normal的也考虑进去了。
annotation这玩意儿连几篇marker paper和pan-can paper上面都没提。不过他们
估计都知道,直接去firebrowse搞就不用考虑annotation了。annotation里面有很多
比如疾病分类错误,样品污染,样品swap,病人吃了药影响数据,数据QC不通过
等。最大的一类是SNP6的genotype, 应该有一两千个样品标记Do Not Use.

【在 n******7 的大作中提到】
: 谢谢详细解答,有些是我知道的,有些细节我确实不清楚
: 我之前就发现TCGA的CNA主要都是array平台来的,而且很多信息不是很清楚(比如有个
: cnv/nocnv的注释,去年ACCR我问了TCGA的人,也没完全说明白)
: 我用TCGA的data matrix 入口download过所有的lv3 data和部分lv2 data
: 他们那个bulk download没搞清楚怎么用...
: TCGA Assembler和firebrowse都没用过,annotation database也是第一次听说
: TCGA把这么重要的东西藏这么深也太挫了,我现在文章都写好了。。
: 我决定先投了,reviewer让QC再QC吧,结果应该只会更好
: 我们需要WGS data, 在TCGA dcc 只有WES的data,WGS都在cgHub
: 但是我们不想自己从bam开始处理,想直接拿SNV/SV的calling,这个ICGC可以提供,所

相关主题
TCGA 数据库求助: BRCA1突变肿瘤下两种subsets药物敏感度比较招聘计算生物/生物信息学博后,tumor sequencing 方向, NIH/NCI
生物医学图片分享工具平台sciencewall做肿瘤的大神们帮忙看一下
在细胞内A诱导B,但在肿瘤标本中不是,为什么?谢谢!Heng Li长得就像个天才码农啊
进入Biology版参与讨论
N******n
发帖数: 3003
11
zan
firebrowse上的数据都是经过QC处理过了,比如RPPA原来的数据有195 protein, 现在
就变成了150,而且他们有差别,给我们省了很多时间做预处理。
firebrowse上的分析很全,都已经发表了,还是初步分析?
n******7
发帖数: 12463
12

我一般都是直接去
tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
--
这个不错。不过好像没有sample annotation information? 用data matrix会生成一
个包,里面有每个sample的annotation。比较重要的就是sample code,因为这里面有
tumor sample也有normal control。我写了个脚本,从local 文件里面抽取想要的
sample挺方便的
WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
出来。
ICGC的mutation可以下载了么?我知道刚差不多finish了sanger pipeline; 其他
的两个刚开始。
--
这个我也了解不多,我们知道有处理过的data之后,就混乱进去,现在等他们给我们一
个什么wiki的access,估计有download的信息
关于cnv/nocnv,我的理解是cnv是tumor的cnv, nocnv大概是tumor relative normal
的cnv. 意思就是,既然你没有normal的cnv data, 那么一般研究应该用nocnv, 也就是
把normal的也考虑进去了。
annotation这玩意儿连几篇marker paper和pan-can paper上面都没提。不过他们
估计都知道,直接去firebrowse搞就不用考虑annotation了。annotation里面有很多
比如疾病分类错误,样品污染,样品swap,病人吃了药影响数据,数据QC不通过
等。最大的一类是SNP6的genotype, 应该有一两千个样品标记Do Not Use.
--
这个太发指了。。。 我的方法做有些cancer上面效果明显差一些,我怀疑就是这个问
题...

【在 s******s 的大作中提到】
: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
: 出来。
: ICGC的mutation可以下载了么?我知道刚差不多finish了sanger pipeline; 其他
: 的两个刚开始。
: 关于cnv/nocnv,我的理解是cnv是tumor的cnv, nocnv大概是tumor relative normal
: 的cnv. 意思就是,既然你没有normal的cnv data, 那么一般研究应该用nocnv, 也就是
: 把normal的也考虑进去了。

i*e
发帖数: 352
13
nocnv记得是tumor cnv去除germline cnv
难道我记错了?

【在 s******s 的大作中提到】
: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
: 出来。
: ICGC的mutation可以下载了么?我知道刚差不多finish了sanger pipeline; 其他
: 的两个刚开始。
: 关于cnv/nocnv,我的理解是cnv是tumor的cnv, nocnv大概是tumor relative normal
: 的cnv. 意思就是,既然你没有normal的cnv data, 那么一般研究应该用nocnv, 也就是
: 把normal的也考虑进去了。

i*e
发帖数: 352
14
sample annotation在bcr那个目录里

【在 n******7 的大作中提到】
:
: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: --
: 这个不错。不过好像没有sample annotation information? 用data matrix会生成一
: 个包,里面有每个sample的annotation。比较重要的就是sample code,因为这里面有
: tumor sample也有normal control。我写了个脚本,从local 文件里面抽取想要的
: sample挺方便的
: WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会

s******s
发帖数: 13035
15
你说的是magetab?
比如SNP6的东西在这儿:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/
distro_ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/
snp/
CNA的单独文件在这:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad
.mit.edu_LUAD.Genome_Wide_SNP_6.Level_3.84.2012.0/BASIC_p_TCGASNP_219_221_
223_N_GenomeWideSNP_6_F06_1148642.nocnv_hg19.seg.txt
mage-tab的SDRF在这:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad
.mit.edu_LUAD.Genome_Wide_SNP_6.mage-tab.1.2012.0/broad.mit.edu_LUAD.Genome_
Wide_SNP_6.sdrf.txt
另外mage-tab里面的的IDF文件多读读,就能明白每个文件具体是咋回事了。
还有更过分的
1. 文件目录broad.mit.edu_LUAD.Genome_Wide_SNP_6.Level_3.84.2012.0 里面的"84"
,可以拿出来做sample collection/shipment level的batch effect analysis, MD
Anderson有专门一个网站做这个,好像还有batch corrected的data。
2. 文件名BASIC_p_TCGASNP_219_221_223_N_GenomeWideSNP_6_F06_1148642.nocnv_
hg19.seg.txt里面的“BASIC",应该是SNP6 Chip的名字,可以拿来做experimental 的
batch effect。
嘿嘿嘿,TCGA里面东西很黑的。。。

这个不错。不过好像没有sample annotation information? 用data matrix会生成一
个包,里面有每个sample的annotation。比较重要的就是sample code,因为这里面有
tumor sample也有normal control。我写了个脚本,从local 文件里面抽取想要的
sample挺方便的

【在 n******7 的大作中提到】
:
: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: --
: 这个不错。不过好像没有sample annotation information? 用data matrix会生成一
: 个包,里面有每个sample的annotation。比较重要的就是sample code,因为这里面有
: tumor sample也有normal control。我写了个脚本,从local 文件里面抽取想要的
: sample挺方便的
: WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会

s******s
发帖数: 13035
16
我就是这个意思啊,所以一般就用这个

【在 i*e 的大作中提到】
: nocnv记得是tumor cnv去除germline cnv
: 难道我记错了?

s******s
发帖数: 13035
17
仔细看一遍,你是要知道哪些file是tumor,哪些事normal?
就用那个sdrf文件,找到文件名,同行里面往前看找TCGA barcode, 然后code第四段
前两个字符01的是solid tumor, 10的是blood normal. 其他的啥solid normal千万别
用,
这玩意儿混了一堆tumor污染。

【在 n******7 的大作中提到】
:
: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: --
: 这个不错。不过好像没有sample annotation information? 用data matrix会生成一
: 个包,里面有每个sample的annotation。比较重要的就是sample code,因为这里面有
: tumor sample也有normal control。我写了个脚本,从local 文件里面抽取想要的
: sample挺方便的
: WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会

n******7
发帖数: 12463
18
找了一下当时的email, nocnv是你说的这个filtered cnv,当时感觉这名字起得太反人
类了,找
我当时还有另外一个问题这哥们儿没理我。关于segment mean value,他说 segment >
0 就是cnv gain,我不知道是不是只要postive,不管具体的数值,都当作cnv gain来
处理。因为很多值非常接近0
Sample Chromosome Start End Num_Probes Segment_Mean
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 1 3218610
247813706 128097 0.0031
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 2 484222
242476062 130191 0.0082
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 3 2212571
197538677 105482 0.0028
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 4 1053934
188762240 101807 0.0022
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 5 914233
180360469 99615 0.0029
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 6 1014281
47690499 27941 0.0013
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 6 47690547
47690613 2 -2.1749

【在 i*e 的大作中提到】
: nocnv记得是tumor cnv去除germline cnv
: 难道我记错了?

n******7
发帖数: 12463
19
对,就是这个mage-tab文件,挺有用的,我extract data都是用这个文件
自己又写了一个config文件,提供level,tissue之类的信息
真JB黑,我以前其实用了很多solid normal sample,后来发现结果很乱,就只用tumor
sample了
tumor sample有normal cell的contamination很正常,我记得TCGA号称sample purity
很高,开始能保证tumor > 50%,后来的sample是 tumor > 70%,不知道是不是吹的
BTW,你这些quality control的信息/八卦都在哪里找的?我想以后有些结果不好也去
找些这消息当借口 :)

broad
distro_
broad

【在 s******s 的大作中提到】
: 你说的是magetab?
: 比如SNP6的东西在这儿:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/
: distro_ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/
: snp/
: CNA的单独文件在这:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
: ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad
: .mit.edu_LUAD.Genome_Wide_SNP_6.Level_3.84.2012.0/BASIC_p_TCGASNP_219_221_
: 223_N_GenomeWideSNP_6_F06_1148642.nocnv_hg19.seg.txt
: mage-tab的SDRF在这:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
: ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad

s******s
发帖数: 13035
20
去读我说的那些magetab目录里面的idf吧,应该这些信息都有。
我记得seg mean的值,应该是 log2(copy number /2). 也就是正常
diploid,segmean=0. gain>0; loss<0.

>


【在 n******7 的大作中提到】
: 找了一下当时的email, nocnv是你说的这个filtered cnv,当时感觉这名字起得太反人
: 类了,找
: 我当时还有另外一个问题这哥们儿没理我。关于segment mean value,他说 segment >
: 0 就是cnv gain,我不知道是不是只要postive,不管具体的数值,都当作cnv gain来
: 处理。因为很多值非常接近0
: Sample Chromosome Start End Num_Probes Segment_Mean
: AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 1 3218610
: 247813706 128097 0.0031
: AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 2 484222
: 242476062 130191 0.0082

相关主题
NCBI 的 SRA 停了?Two postdoctoral fellow position available in UTSouthwestern Medical Center
翻墙求合作询问一个关于肿瘤免疫的问题
GFP or luciferase or others?postdoc postion available
进入Biology版参与讨论
s******s
发帖数: 13035
21
那片ABSOLUTE的文章里面应该有purify, 卵巢癌应该非常纯,肺癌啥的很烂。
很多信息都在idf里面, 或者tcga的wiki,另外,这个目录你是怎么也不知道的啊,哈哈
https://tcga-data.nci.nih.gov/docs/,因为哪里都没链接,我喜欢乱翻网站。
至于八卦么,多和TCGA DCC (NCI), BCR (Nationwidechildren), GDAC (Broad) 的人
聊聊天就知道了,嘿嘿嘿嘿嘿嘿嘿。

tumor
purity

【在 n******7 的大作中提到】
: 对,就是这个mage-tab文件,挺有用的,我extract data都是用这个文件
: 自己又写了一个config文件,提供level,tissue之类的信息
: 真JB黑,我以前其实用了很多solid normal sample,后来发现结果很乱,就只用tumor
: sample了
: tumor sample有normal cell的contamination很正常,我记得TCGA号称sample purity
: 很高,开始能保证tumor > 50%,后来的sample是 tumor > 70%,不知道是不是吹的
: BTW,你这些quality control的信息/八卦都在哪里找的?我想以后有些结果不好也去
: 找些这消息当借口 :)
:
: broad

n******7
发帖数: 12463
22
你说的我知道
我的意思是为什么有的值特别小
比如0.003
这应该是因为cancer cell heterogeneity 造成的吧
我当时是不太清楚要不要过滤掉值比较低的

【在 s******s 的大作中提到】
: 那片ABSOLUTE的文章里面应该有purify, 卵巢癌应该非常纯,肺癌啥的很烂。
: 很多信息都在idf里面, 或者tcga的wiki,另外,这个目录你是怎么也不知道的啊,哈哈
: https://tcga-data.nci.nih.gov/docs/,因为哪里都没链接,我喜欢乱翻网站。
: 至于八卦么,多和TCGA DCC (NCI), BCR (Nationwidechildren), GDAC (Broad) 的人
: 聊聊天就知道了,嘿嘿嘿嘿嘿嘿嘿。
:
: tumor
: purity

n******7
发帖数: 12463
23
这个purity我没想太多,以为主要是clonal evolution导致的不同
你这个docs的目录看点在哪里? 看了一会儿,不知所以

哈哈

【在 s******s 的大作中提到】
: 那片ABSOLUTE的文章里面应该有purify, 卵巢癌应该非常纯,肺癌啥的很烂。
: 很多信息都在idf里面, 或者tcga的wiki,另外,这个目录你是怎么也不知道的啊,哈哈
: https://tcga-data.nci.nih.gov/docs/,因为哪里都没链接,我喜欢乱翻网站。
: 至于八卦么,多和TCGA DCC (NCI), BCR (Nationwidechildren), GDAC (Broad) 的人
: 聊聊天就知道了,嘿嘿嘿嘿嘿嘿嘿。
:
: tumor
: purity

s******s
发帖数: 13035
24
我觉的就是这个原因。
至于是不是要滤过,看你干啥了。你说这个是不是有cna,那多半是没有,滤过就可以;
你比如和基因表达对照看,表达值如果是一个portion做出来的,那么有一样的
heterogeneity,
那么显然应该保留0.003

【在 n******7 的大作中提到】
: 你说的我知道
: 我的意思是为什么有的值特别小
: 比如0.003
: 这应该是因为cancer cell heterogeneity 造成的吧
: 我当时是不太清楚要不要过滤掉值比较低的

s******s
发帖数: 13035
25
这玩意儿是个大杂烩,垃圾多,有用的东西也多。
比如有GAF,有一堆fasta,有barcode和uuid的mapping文件。
我还看的,有clinical elements CDE的dictionary, 还有些xsd的估计大家不关心。

【在 n******7 的大作中提到】
: 这个purity我没想太多,以为主要是clonal evolution导致的不同
: 你这个docs的目录看点在哪里? 看了一会儿,不知所以
:
: 哈哈

n******7
发帖数: 12463
26
...你对TCGA是真爱啊,我估计八成读过你们组的文章

【在 s******s 的大作中提到】
: 这玩意儿是个大杂烩,垃圾多,有用的东西也多。
: 比如有GAF,有一堆fasta,有barcode和uuid的mapping文件。
: 我还看的,有clinical elements CDE的dictionary, 还有些xsd的估计大家不关心。

s******s
发帖数: 13035
27
没办法,工作需要,而且这方面工作发不出文章,还不让宣传 :(

【在 n******7 的大作中提到】
: ...你对TCGA是真爱啊,我估计八成读过你们组的文章
n******7
发帖数: 12463
28
这是什么工作啊,既不发文章,又不能说?
感觉是公司里面的干活?

【在 s******s 的大作中提到】
: 没办法,工作需要,而且这方面工作发不出文章,还不让宣传 :(
s******s
发帖数: 13035
29
哪来的公司?学校里的干活!
拿着千老的工资,干着start-up的活,做点research都算休息 :(

【在 n******7 的大作中提到】
: 这是什么工作啊,既不发文章,又不能说?
: 感觉是公司里面的干活?

n******7
发帖数: 12463
30
sequencing center?
你说的这些TCGA的问题让我感觉这是一个巨大的坑
我下个project还要用TCGA data,真愁死了

【在 s******s 的大作中提到】
: 哪来的公司?学校里的干活!
: 拿着千老的工资,干着start-up的活,做点research都算休息 :(

1 (共1页)
进入Biology版参与讨论
相关主题
询问一个关于肿瘤免疫的问题用WGS寻找疾病structural variation的文章
postdoc postion availableTCGA 数据库求助: BRCA1突变肿瘤下两种subsets药物敏感度比较
问一下Next generation sequence analysis主要做点什么内容?生物医学图片分享工具平台sciencewall
怎么比较两个蛋白质的表达水平。在细胞内A诱导B,但在肿瘤标本中不是,为什么?谢谢!
请大牛科普下这几个database:Oncomine, TCGA, CCLE, cBioPortal招聘计算生物/生物信息学博后,tumor sequencing 方向, NIH/NCI
有没有谁有鼓捣生物信息服务公司的想法?做肿瘤的大神们帮忙看一下
做生物实验能偷懒还获得很多data吗?Heng Li长得就像个天才码农啊
copy number variationNCBI 的 SRA 停了?
相关话题的讨论汇总
话题: tcga话题: data话题: tumor话题: cnv话题: cna