由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - 说说自己的研究:Gene module在生物医学癌症分类(clustering)的应用
相关主题
生物信息学杂志-请大家点评 (转载)区间聚类
浅谈生物信息的职业发展规划能用real time RT-PCR来比较同一细胞的不同gene的含量吗?
求意见:想找个烂journal把paper发了毕业能用real time RT-PCR来比较同一细胞的不同gene的含量吗?
【需要申请绿卡,要生物医学review的同学过来看】How to exactly define essential gene?
Gene Expression by Remote Controlhey here
seeking recommendation for clustering analyses请教如何用Excel做这样的图表?
全基因组甲基化数据如何分析?NIH gene array bank
DAVID/clustering 分析 一个入门问题请推荐一款text mining的工具
相关话题的讨论汇总
话题: 基因话题: gene话题: aml话题: module话题: clustering
进入Biology版参与讨论
1 (共1页)
E******T
发帖数: 59
1
Gene module在生物医学癌症分类(clustering),以及生物活性marker鉴定的应用
生物医学样品的分类(clustering)及其复杂,有几个原因: 医学样品的构成,比如
说白血病病人,有年龄,性别,癌症分级(I,II,III),用药情况,癌症类别(AML
,ALL)等等。按照不同的标准,就可以把病人样品分成不同的类别(clustering).
更深一层次,不同的类别如果从生物学上来看,是由不同的基因,信号通路引起。如果
能找到这些不同类别对应的pathway,那么相对应的分类也就能被发现。 比如,白血病
里面的一种AML,他相应的信号通路就不同于另一种ALL,所以根据这些基因就能把白血
病分成AML和ALL。同理,如果能发现与癌症分级不同的信号通路,就能把白血病分成I
,II,III等不同的级别。但是,在平常的研究当中,这些具体的分类都不是特别清楚
。大多数情况下,仅仅知道其中的一种,比如在白血病里面就知道AML和ALL的分类,至
于其他的信息,很难得到。所以我们用了unsupervised learning的思想来研究这个问
题。
从生物角度来看,如果一个pathway被启动,那么就有一组基因被turn on. 比如说在
AML, 一组基因high expressed,但是在ALL里面,却是低表达。 这样的一组基因有一
个特性就是他们的correlation很高。 我们就是利用这个原理来寻找相关基因或者信号
通路的。 这里面,特别说明的是我们感兴趣的是一组基因或者相关的信号通路而不是
某个基因。这样的好处是准确率高,假阳性低。很简单的道理,有时候一个基因能很好
的区分一组样品,但是另一组样品里面就失去效果。但是一组基因,或者一个信号通路
,就去掉了很大的假阳性,在不同的样品组里面,都有作用。
根据以上原理,我们设计了一种新的发现一组基因(gene module)的方法。这里面我
们定义了gene module. 他是指有很高相互作用的基因。比如在基因pathway里面,可
能有的基因仅仅和另一个基因有相互作用,我们对这样的基因不是很感兴趣。但是另外
一组基因,他们可能互相作用,形成一个联系很高的网状结构,这就是gene module.
在某种意义上,我们可以认为是gene pathway.
具体的方法: 首先依靠gene correlation建立一个gene co-expression network. 这
个很简单,在matlab或者R里面,就是用一个简单的命令corr(data). 这样就生成了一
个symmetric matrix. 根据基因的数量,这个matrix可能很大,比如说10000X10000.
为了减少后面的计算量,你也可以先做初选,比如选择high variance 的基因。这个过
程是gene filter。在matlab或者R里面就有相应的命令,比如genefilter(data,
Percent=80),就是去掉80% low variance gene. 下一步是对correlation设立一个阈
值,大于这个阈值的,我们说他们之间有相互作用,或者他们相似,就是1,小于的就
是0,没有相互作用。 这样形成的matrix,在network里面叫adjacency matrix. 往往这
样的matrix还很难看出相互作用的分布,因为一般情况是很稀疏的。 我们的下一步的
工作就是neighborhood的引入。如果两个基因的邻居完全一致,或者重合的很多,那么
他们就应当有很高的可能性相互作用,或者相似度很高。这个也很容易实现,就是把
adjacency matrix自己相乘。 如果相似度低,那么对应的matrix里面的值就很低,甚
至有可能是0,代表完全不同。如果相似度很高,对应的值就很高。 下面就是要把高的
都放在一起,低的放在另一边。在R或者matlab里面就是一个命令heatmap。其实是对横
轴纵轴做了两个clustering。这样就看到形似度高的就很热(red),低的很冷(green
)。而且有不同的block,每一个block对应于一gene module,也就是对应于不同的gene
pathway. 如果你用每个gene module里面的基因做clustering,就把医学样品分成不同
的分类。 比如白血病dataset, 有的module可以把它分成AML,ALL,有的把它分成AML-
B cell, AML-T cell等等。 这样就会发现一些新的分类模式。
这种方法对于癌症研究特别有用。和以前说的,就是他们的分类很复杂,比如说有的癌
症类别有可能有特定的基因突变,如果你不测序很可能不知道,但是用这种方法就可以
被发现。主要原因是这些突变改变了很多相关的基因pathway,在co-expression
network里面就容易被捕捉到,相应的heatmap里面形成gene module.
相关文章发表在BMC bioinformatics上面,有问题或者索取相关R,matlab code的站内
回信。
Wang et al., 2014. Improving the sensitivity of sample clustering by
leveraging gene co-expression networks in variable selection, BMC
Bioinformatics 15, 153
R****n
发帖数: 708
2
你是一作还是Corresponding?如果你这个strategy怎么扩展到多个层,比如DNA的
epigenetics,small RNA的interaction。我现在的理解是gene expression network受
TF的影响最大,如果几个基因共享transcription complex。

AML

I

【在 E******T 的大作中提到】
: Gene module在生物医学癌症分类(clustering),以及生物活性marker鉴定的应用
: 生物医学样品的分类(clustering)及其复杂,有几个原因: 医学样品的构成,比如
: 说白血病病人,有年龄,性别,癌症分级(I,II,III),用药情况,癌症类别(AML
: ,ALL)等等。按照不同的标准,就可以把病人样品分成不同的类别(clustering).
: 更深一层次,不同的类别如果从生物学上来看,是由不同的基因,信号通路引起。如果
: 能找到这些不同类别对应的pathway,那么相对应的分类也就能被发现。 比如,白血病
: 里面的一种AML,他相应的信号通路就不同于另一种ALL,所以根据这些基因就能把白血
: 病分成AML和ALL。同理,如果能发现与癌症分级不同的信号通路,就能把白血病分成I
: ,II,III等不同的级别。但是,在平常的研究当中,这些具体的分类都不是特别清楚
: 。大多数情况下,仅仅知道其中的一种,比如在白血病里面就知道AML和ALL的分类,至

R****n
发帖数: 708
3
你这个把TCGA的数据玩玩,灌个三五篇应该很容易,关键是要和临床的人合作,
validate你的结果。如果只建模,恐怕发不上去好的。

【在 E******T 的大作中提到】
: Gene module在生物医学癌症分类(clustering),以及生物活性marker鉴定的应用
: 生物医学样品的分类(clustering)及其复杂,有几个原因: 医学样品的构成,比如
: 说白血病病人,有年龄,性别,癌症分级(I,II,III),用药情况,癌症类别(AML
: ,ALL)等等。按照不同的标准,就可以把病人样品分成不同的类别(clustering).
: 更深一层次,不同的类别如果从生物学上来看,是由不同的基因,信号通路引起。如果
: 能找到这些不同类别对应的pathway,那么相对应的分类也就能被发现。 比如,白血病
: 里面的一种AML,他相应的信号通路就不同于另一种ALL,所以根据这些基因就能把白血
: 病分成AML和ALL。同理,如果能发现与癌症分级不同的信号通路,就能把白血病分成I
: ,II,III等不同的级别。但是,在平常的研究当中,这些具体的分类都不是特别清楚
: 。大多数情况下,仅仅知道其中的一种,比如在白血病里面就知道AML和ALL的分类,至

E******T
发帖数: 59
4
这个也是一个系列的,怎么不给mark呀? 嘻嘻
1 (共1页)
进入Biology版参与讨论
相关主题
请推荐一款text mining的工具Gene Expression by Remote Control
GO analysisseeking recommendation for clustering analyses
问几个十分十分基础的生物问题, 请好心人解释下。。。包子答谢全基因组甲基化数据如何分析?
版上有没有熟悉allosteric modulation的大侠啊DAVID/clustering 分析 一个入门问题
生物信息学杂志-请大家点评 (转载)区间聚类
浅谈生物信息的职业发展规划能用real time RT-PCR来比较同一细胞的不同gene的含量吗?
求意见:想找个烂journal把paper发了毕业能用real time RT-PCR来比较同一细胞的不同gene的含量吗?
【需要申请绿卡,要生物医学review的同学过来看】How to exactly define essential gene?
相关话题的讨论汇总
话题: 基因话题: gene话题: aml话题: module话题: clustering