w***g 发帖数: 5958 | 1 请版上的生物专家帮忙。
我有一批基因芯片数据,型号是affymetrix HG-U133_Plus_2。
需要把.CEL文件处理成适合机器学习的格式。
目前我用的就是三行R程序。
data <- ReadAffy(filenames=args[1])
eset.mas5 <- mas5(data)
write.exprs(est.mas5, file=args[2])
想请教下这种数据应该做什么样的normalization或者别的预处理
才适合进行后续机器学习。
穷酸就穷酸吧。我反正是靠情怀活着,偶尔也做点火坑专业的事情。 |
|
w***g 发帖数: 5958 | 2 请版上的生物专家帮忙。
我有一批基因芯片数据,型号是affymetrix HG-U133_Plus_2。
需要把.CEL文件处理成适合机器学习的格式。
目前我用的就是三行R程序。
data <- ReadAffy(filenames=args[1])
eset.mas5 <- mas5(data)
write.exprs(est.mas5, file=args[2])
想请教下这种数据应该做什么样的normalization或者别的预处理
才适合进行后续机器学习。
穷酸就穷酸吧。我反正是靠情怀活着,偶尔也做点火坑专业的事情。 |
|
w***g 发帖数: 5958 | 3 这个mas5的数值直接用可以吗?
或者mas5经过quantile normalization就可以直接用了吗?
主要是我这个数据提取不能显得太外行。后续机器学习倒是没问题。
多谢! |
|
x***u 发帖数: 297 | 4 mas5 已经是Normalized的了。再加其他的不太好。
MAS5 是比较老的Normalization方法,最初是给 3‘ Chip 做的,每个array是独立
normalized。
像affy这种 u133 plus 2 是probe level的 chp 用 RMA比较好。RMA会normalize
between chips,。 |
|
w***g 发帖数: 5958 | 5 这个mas5的数值直接用可以吗?
或者mas5经过quantile normalization就可以直接用了吗?
主要是我这个数据提取不能显得太外行。后续机器学习倒是没问题。
多谢! |
|
x***u 发帖数: 297 | 6 mas5 已经是Normalized的了。再加其他的不太好。
MAS5 是比较老的Normalization方法,最初是给 3‘ Chip 做的,每个array是独立
normalized。
像affy这种 u133 plus 2 是probe level的 chp 用 RMA比较好。RMA会normalize
between chips,。 |
|
l*****k 发帖数: 587 | 7 you should read Affy manual, the P call percent depends on the sample
you used, and should be consistent for the same type of samples.
there are probe level methods other than MAS5 or GCOS, like dCHIP or RMA.
it is said they are better than MAS5, I suggest you to give them a try if you
have time. |
|
t******s 发帖数: 55 | 8 你这样问问题没人能回答你
至少给点有用的信息
比如说用的什么方法(expression console里有mas5,rma etc),什么参数,而不是
用什么软件(expression console里至少有三种normalized的方法)
你有多少个sample,(大于8或者少于8)
少于8基本只能用mas5,大于8可以用rma。
基本流程
1. QC
probe level: 3'/5'
DNA degradation
background intensity
precent present
probe set level:
NUSE/RLE
2. Prepossessing.
Normalization
non-specific filtering
3. post-analysis
do whatever you want
you can try MA plot to compare two arrays. |
|
w***g 发帖数: 5958 | 9 是的。似乎我那个程序默认是用RMA。但是医院给的数据可以和mas5对上。
我从网上下了好几千个cel文件,如果normalize between chips会太慢,
或者干脆程序不正常吧。这些cel可能是很不同的实验做出来的。 |
|
w***g 发帖数: 5958 | 10 是的。似乎我那个程序默认是用RMA。但是医院给的数据可以和mas5对上。
我从网上下了好几千个cel文件,如果normalize between chips会太慢,
或者干脆程序不正常吧。这些cel可能是很不同的实验做出来的。 |
|
l*****k 发帖数: 587 | 11 well, I just read all the replies, seems no one asked you how
many chips you did and what is your exact defination of
down or up regulation, algorithm used, etc.
clustering, in most cases, does not make biological sense at
all. What you can do is to select the list of genes with good
P value and use Affymetrix's website for GO analysis, it is hard
to save results but kinda give you a tree like structure based
on your genes GO identity.
for probe level analysis: Dchip, RMA, MAS5.
For higher level |
|
t*d 发帖数: 1290 | 12 "少于8基本只能用mas5,大于8可以用rma。"
有这么一说? |
|
t******s 发帖数: 55 | 13 算probe effect,要simple size的
当然cutoff的标准不那么好定,一般觉得是8-10左右
如果小于8,也有一些其他更好办法,相对比较复杂,一般就用mas5了 |
|
t******s 发帖数: 55 | 14 如果就6个sample,简单的办法用mas5,复杂的办法用一个预定义的reference set算
probe effect。
是3 |
|