由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - machine learning来对GWAS结果建模
相关主题
如果genotyping结果发现一个SNP不符合HWE说明啥?Ask a simple question...
请教neurogenomics职业规划求教生物信息学问题
求教一个GWAS的问题genotype 的价格
应该控制生物新技术的大规模应用问一下Next generation sequence analysis主要做点什么内容?
谁有做snp的genotyping 学习资料拿到WGS data,鉴定出一堆SNP后做什么呢?
请教个DNA相关的实验问题贡献一个SNP/Indel calling pipeline
做线虫的有人试过WGS+SNP的方法一步测序出mutant吗?生命攸关,请大家帮助我们理解和学习全基因组测序
新手求教,用什么办法根据genotypes的数据,分析risk hyplotype??不要低估了生物的复杂度
相关话题的讨论汇总
话题: gwas话题: snp话题: linear话题: binary话题: model
进入Biology版参与讨论
1 (共1页)
r**********e
发帖数: 587
1
最近在做一些machine learning/data science的工作。
因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困
难,或者基于top candidate来预测疾病几乎不可能。
那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万
个SNP和疾病状态的关系呢?
Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个)
比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解
去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online
available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分
析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以
得到good estimate of parameters
但为何看到的文章这么少(或许是我孤陋寡闻)?然后也没有看到有很好的genetics
modeling运用到临床的。是因为这个真正做起来非常复杂?还是有太多arbitrary(比
如使用哪种classifier),所以也是一个坑?
不知道有没有做这个方向的,说说这是不是个坑。
s******s
发帖数: 13035
2
gwas现在的理论是无数作用微小的SNP,太多predictor会overfitting
你要有兴趣的话去看看Nancy Cox在Vanderbilt的工作,用prediXcan把
SNP translate到表达,然后用表达看比较容易点

【在 r**********e 的大作中提到】
: 最近在做一些machine learning/data science的工作。
: 因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困
: 难,或者基于top candidate来预测疾病几乎不可能。
: 那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万
: 个SNP和疾病状态的关系呢?
: Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个)
: 比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解
: 去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online
: available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分
: 析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以

d********m
发帖数: 3662
3
对SNP modeling完全不了解,是logit or probit regression + hierarchical
probabilistic model + MCMC
这个步骤吗?
s******s
发帖数: 13035
4
btw, prediXcan其实就是类似的regression,不过dependent variable是expression而已

【在 s******s 的大作中提到】
: gwas现在的理论是无数作用微小的SNP,太多predictor会overfitting
: 你要有兴趣的话去看看Nancy Cox在Vanderbilt的工作,用prediXcan把
: SNP translate到表达,然后用表达看比较容易点

G***G
发帖数: 16778
5
what is Y?
categorical variable?
what is the x?
genotype? is it categorical variable?

【在 r**********e 的大作中提到】
: 最近在做一些machine learning/data science的工作。
: 因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困
: 难,或者基于top candidate来预测疾病几乎不可能。
: 那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万
: 个SNP和疾病状态的关系呢?
: Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个)
: 比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解
: 去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online
: available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分
: 析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以

r***x
发帖数: 855
6
果然隔行如隔山啊,完全无法理解了

【在 r**********e 的大作中提到】
: 最近在做一些machine learning/data science的工作。
: 因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困
: 难,或者基于top candidate来预测疾病几乎不可能。
: 那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万
: 个SNP和疾病状态的关系呢?
: Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个)
: 比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解
: 去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online
: available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分
: 析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以

G***G
发帖数: 16778
7
the key is to understand what is exactly x and Y.

【在 r***x 的大作中提到】
: 果然隔行如隔山啊,完全无法理解了
i*e
发帖数: 352
8
GWAS是很多,但是拿到数据,尤其N多个GWAS,也不是很简单
summarized results都不一定好拿
更不要说需要genotypes的情况下
有用GWAS top SNPs做polygenic risk score来预测
AUC对比之前用流行病或者临床指标的模型
结果没有太明显突出增强
也有用全基因组的SNPs做类似的工作
或者增加几个权重,比如SNP annotation或者local ancestray之类的
GWAS已经被统计流行病那拨人玩残了
genotypes是一方面,但是疾病表型是另一方面,而且是最重要的一个
这方面高质量的数据,不一定好拿到
此外像shakuras说的那种进一步结合或者转换到更有生物学意义的数据,可能是一个方法
生物学有时空性
但是目前这种snapshot类型的数据来源
多少能反应生物学,那就另说了
但是能玩

【在 r**********e 的大作中提到】
: 最近在做一些machine learning/data science的工作。
: 因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困
: 难,或者基于top candidate来预测疾病几乎不可能。
: 那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万
: 个SNP和疾病状态的关系呢?
: Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个)
: 比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解
: 去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online
: available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分
: 析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以

h********6
发帖数: 135
9
Genomic selection 在 cattle 已经做了很多了。prediction accuracy 能在40%左右
就不错了

【在 r**********e 的大作中提到】
: 最近在做一些machine learning/data science的工作。
: 因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困
: 难,或者基于top candidate来预测疾病几乎不可能。
: 那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万
: 个SNP和疾病状态的关系呢?
: Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个)
: 比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解
: 去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online
: available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分
: 析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以

G***G
发帖数: 16778
10
谁能告诉我们
模型中的x是什么?Y又是什么?
x是genotype,还是expression value?
Y是phenotype吗?是categorial,还是continuous?

【在 h********6 的大作中提到】
: Genomic selection 在 cattle 已经做了很多了。prediction accuracy 能在40%左右
: 就不错了

相关主题
请教个DNA相关的实验问题Ask a simple question...
做线虫的有人试过WGS+SNP的方法一步测序出mutant吗?求教生物信息学问题
新手求教,用什么办法根据genotypes的数据,分析risk hyplotype??genotype 的价格
进入Biology版参与讨论
r**********e
发帖数: 587
11
Yes.
Y=control or disease,转化为0或1
X=genotype,比如0,1,2
当然看到有人说直接把AA AC CC化为0,1,2是不是不妥。
我只是对这个问题很有兴趣,但没具体做过。估计很多stat people做过可以来讲讲


: what is Y?

: categorical variable?

: what is the x?

: genotype? is it categorical variable?



【在 G***G 的大作中提到】
: 谁能告诉我们
: 模型中的x是什么?Y又是什么?
: x是genotype,还是expression value?
: Y是phenotype吗?是categorial,还是continuous?

G***G
发帖数: 16778
12
感觉不容易。binary variables are not suitable for linear regression.

【在 r**********e 的大作中提到】
: Yes.
: Y=control or disease,转化为0或1
: X=genotype,比如0,1,2
: 当然看到有人说直接把AA AC CC化为0,1,2是不是不妥。
: 我只是对这个问题很有兴趣,但没具体做过。估计很多stat people做过可以来讲讲
:
:
: what is Y?
:
: categorical variable?
:
: what is the x?
:
: genotype? is it categorical variable?

d********m
发帖数: 3662
13
there are things called generalized linear models

【在 G***G 的大作中提到】
: 感觉不容易。binary variables are not suitable for linear regression.
I**********r
发帖数: 72
14
Bayesian sparse LMM
r**********e
发帖数: 587
15
Many thanks!
我没有找到正确的关键词polygenic
一搜polygenic,一大堆文章,果然就是被biostatistics玩残了的。
我在想:
1, input selection (应该选择多少snp,是否根据snp的功能分配weight)
2, machine learning的不同model (svm,random forest,linear mixed
regression, sparse regression..)
3, 有如此多不同的疾病
感觉跟作实验一样,也是很多不同hypothesis:assume不同的input snp,尝试不同的
model;然后如此多不同疾病的大量的gwas数据,说不定就碰运气得到好的performance
,然后用到临床上去的?
比如最近这个:
http://www.nature.com/nature/journal/v542/n7639/full/nature21056.html#ref4
Dermatologist-level classification of skin cancer with deep neural networks
还没仔细读,但能到nature上,不知道是否是很成功的deep learning用到临床

【在 i*e 的大作中提到】
: GWAS是很多,但是拿到数据,尤其N多个GWAS,也不是很简单
: summarized results都不一定好拿
: 更不要说需要genotypes的情况下
: 有用GWAS top SNPs做polygenic risk score来预测
: AUC对比之前用流行病或者临床指标的模型
: 结果没有太明显突出增强
: 也有用全基因组的SNPs做类似的工作
: 或者增加几个权重,比如SNP annotation或者local ancestray之类的
: GWAS已经被统计流行病那拨人玩残了
: genotypes是一方面,但是疾病表型是另一方面,而且是最重要的一个

G***G
发帖数: 16778
16
are you sure it will work?
in his model, y and x both are binary.
I am not a statistician. Can someone confirm the following statement for us?
Generalized linear model cannot deal well with binary x.

【在 d********m 的大作中提到】
: there are things called generalized linear models
G***G
发帖数: 16778
17
first time heard of this.
is this powerful?
For the Linear Mixed model, is it good when predictors are all binary?

【在 I**********r 的大作中提到】
: Bayesian sparse LMM
d********m
发帖数: 3662
18
Let me put it this way. ANOVA is a linear regression model with random error
being normally distributed and predictors being encoded categorically. It'
s called dummy variables.
The same idea can certainly be applied on to generalized linear model with
different form of random errors.

us?

【在 G***G 的大作中提到】
: are you sure it will work?
: in his model, y and x both are binary.
: I am not a statistician. Can someone confirm the following statement for us?
: Generalized linear model cannot deal well with binary x.

g**********y
发帖数: 423
19
glm的y有个link function,binary 一般是logit。
glm的x可以是binary,这里的binary必须作为categorical。
1 (共1页)
进入Biology版参与讨论
相关主题
不要低估了生物的复杂度谁有做snp的genotyping 学习资料
请教:关于用WGS来map mutation请教个DNA相关的实验问题
大家对Nova seq怎么看?做线虫的有人试过WGS+SNP的方法一步测序出mutant吗?
有趣的计算生物学问题(2):标签序列设计问题新手求教,用什么办法根据genotypes的数据,分析risk hyplotype??
如果genotyping结果发现一个SNP不符合HWE说明啥?Ask a simple question...
请教neurogenomics职业规划求教生物信息学问题
求教一个GWAS的问题genotype 的价格
应该控制生物新技术的大规模应用问一下Next generation sequence analysis主要做点什么内容?
相关话题的讨论汇总
话题: gwas话题: snp话题: linear话题: binary话题: model