w***g 发帖数: 5958 | 1 请版上的生物专家帮忙。
我有一批基因芯片数据,型号是affymetrix HG-U133_Plus_2。
需要把.CEL文件处理成适合机器学习的格式。
目前我用的就是三行R程序。
data <- ReadAffy(filenames=args[1])
eset.mas5 <- mas5(data)
write.exprs(est.mas5, file=args[2])
想请教下这种数据应该做什么样的normalization或者别的预处理
才适合进行后续机器学习。
穷酸就穷酸吧。我反正是靠情怀活着,偶尔也做点火坑专业的事情。 |
g******w 发帖数: 78 | 2 Quantile Normalization可以试试
【在 w***g 的大作中提到】 : 请版上的生物专家帮忙。 : 我有一批基因芯片数据,型号是affymetrix HG-U133_Plus_2。 : 需要把.CEL文件处理成适合机器学习的格式。 : 目前我用的就是三行R程序。 : data <- ReadAffy(filenames=args[1]) : eset.mas5 <- mas5(data) : write.exprs(est.mas5, file=args[2]) : 想请教下这种数据应该做什么样的normalization或者别的预处理 : 才适合进行后续机器学习。 : 穷酸就穷酸吧。我反正是靠情怀活着,偶尔也做点火坑专业的事情。
|
w***g 发帖数: 5958 | 3 这个mas5的数值直接用可以吗?
或者mas5经过quantile normalization就可以直接用了吗?
主要是我这个数据提取不能显得太外行。后续机器学习倒是没问题。
多谢!
【在 g******w 的大作中提到】 : Quantile Normalization可以试试
|
x***u 发帖数: 297 | 4 mas5 已经是Normalized的了。再加其他的不太好。
MAS5 是比较老的Normalization方法,最初是给 3‘ Chip 做的,每个array是独立
normalized。
像affy这种 u133 plus 2 是probe level的 chp 用 RMA比较好。RMA会normalize
between chips,。 |
W***o 发帖数: 6519 | 5 是不是还要参照cDNA的量来normalize一下?
5年多没搞这东西了,呵呵 |
w***g 发帖数: 5958 | 6 是的。似乎我那个程序默认是用RMA。但是医院给的数据可以和mas5对上。
我从网上下了好几千个cel文件,如果normalize between chips会太慢,
或者干脆程序不正常吧。这些cel可能是很不同的实验做出来的。
【在 x***u 的大作中提到】 : mas5 已经是Normalized的了。再加其他的不太好。 : MAS5 是比较老的Normalization方法,最初是给 3‘ Chip 做的,每个array是独立 : normalized。 : 像affy这种 u133 plus 2 是probe level的 chp 用 RMA比较好。RMA会normalize : between chips,。
|
A*****n 发帖数: 243 | 7 可以试一下frozen robust RMA (fRMA)。如果你这么多CEL都是来自于GEO的话,有一些
lab做过统一处理的事情,应该可以直接下载。不过这么多CEL,最后normarlization的
计算都很简单,meta data curation才最麻烦。
【在 w***g 的大作中提到】 : 是的。似乎我那个程序默认是用RMA。但是医院给的数据可以和mas5对上。 : 我从网上下了好几千个cel文件,如果normalize between chips会太慢, : 或者干脆程序不正常吧。这些cel可能是很不同的实验做出来的。
|
w***g 发帖数: 5958 | 8 请版上的生物专家帮忙。
我有一批基因芯片数据,型号是affymetrix HG-U133_Plus_2。
需要把.CEL文件处理成适合机器学习的格式。
目前我用的就是三行R程序。
data <- ReadAffy(filenames=args[1])
eset.mas5 <- mas5(data)
write.exprs(est.mas5, file=args[2])
想请教下这种数据应该做什么样的normalization或者别的预处理
才适合进行后续机器学习。
穷酸就穷酸吧。我反正是靠情怀活着,偶尔也做点火坑专业的事情。 |
g******w 发帖数: 78 | 9 Quantile Normalization可以试试
【在 w***g 的大作中提到】 : 请版上的生物专家帮忙。 : 我有一批基因芯片数据,型号是affymetrix HG-U133_Plus_2。 : 需要把.CEL文件处理成适合机器学习的格式。 : 目前我用的就是三行R程序。 : data <- ReadAffy(filenames=args[1]) : eset.mas5 <- mas5(data) : write.exprs(est.mas5, file=args[2]) : 想请教下这种数据应该做什么样的normalization或者别的预处理 : 才适合进行后续机器学习。 : 穷酸就穷酸吧。我反正是靠情怀活着,偶尔也做点火坑专业的事情。
|
w***g 发帖数: 5958 | 10 这个mas5的数值直接用可以吗?
或者mas5经过quantile normalization就可以直接用了吗?
主要是我这个数据提取不能显得太外行。后续机器学习倒是没问题。
多谢!
【在 g******w 的大作中提到】 : Quantile Normalization可以试试
|
|
|
x***u 发帖数: 297 | 11 mas5 已经是Normalized的了。再加其他的不太好。
MAS5 是比较老的Normalization方法,最初是给 3‘ Chip 做的,每个array是独立
normalized。
像affy这种 u133 plus 2 是probe level的 chp 用 RMA比较好。RMA会normalize
between chips,。 |
W***o 发帖数: 6519 | 12 是不是还要参照cDNA的量来normalize一下?
5年多没搞这东西了,呵呵 |
w***g 发帖数: 5958 | 13 是的。似乎我那个程序默认是用RMA。但是医院给的数据可以和mas5对上。
我从网上下了好几千个cel文件,如果normalize between chips会太慢,
或者干脆程序不正常吧。这些cel可能是很不同的实验做出来的。
【在 x***u 的大作中提到】 : mas5 已经是Normalized的了。再加其他的不太好。 : MAS5 是比较老的Normalization方法,最初是给 3‘ Chip 做的,每个array是独立 : normalized。 : 像affy这种 u133 plus 2 是probe level的 chp 用 RMA比较好。RMA会normalize : between chips,。
|
A*****n 发帖数: 243 | 14 可以试一下frozen robust RMA (fRMA)。如果你这么多CEL都是来自于GEO的话,有一些
lab做过统一处理的事情,应该可以直接下载。不过这么多CEL,最后normarlization的
计算都很简单,meta data curation才最麻烦。
【在 w***g 的大作中提到】 : 是的。似乎我那个程序默认是用RMA。但是医院给的数据可以和mas5对上。 : 我从网上下了好几千个cel文件,如果normalize between chips会太慢, : 或者干脆程序不正常吧。这些cel可能是很不同的实验做出来的。
|
g**********y 发帖数: 423 | 15 几乎所有的microarray data的主要问题是batch effect的问题,不是machine
learning的问题。 |