由买买提看人间百态

topics

全部话题 - 话题: gsea
1 2 下页 末页 (共2页)
f******k
发帖数: 856
1
来自主题: Biology版 - GSEA questions
我只是根据我自己摸索的经验来说,我发现GSEA网站给的解释让人看得都晕晕的。
1. 我主要分析自己的RNAseq数据,我最多有三个样品,control,样品1,样品2,所以
我一般都选择log2 ratio的metrics.
另外,你的replicates要merge(比如做average)以后再做input,GSEA不接受
replicates作为input,这一点在Q&A部分都有明确解释。
2. 我也有同样的疑问,我自己用filtered list作为input,但是由于filtered list基
因数目要远小于整个transcriptome的基因数目,所以就要调整minimum size, 用默认
15的时候经常是出错,我都要改到10甚至5,才能出结果。
我觉得整个transcriptome也可以作为input,因为GSEA会做样品间的互相比较和统计学
分析,filtered list反而降低了GSEA进行gene set组合的可能性。但是transciptome
里是明显的垃圾信息或者false positive的基因,我想还是先过滤掉会更好,GSEA结果
会更干净。
不过我... 阅读全帖
h******3
发帖数: 190
2
没找到bioinformatics版,就发在这里了。是这学期RA的一个事情。但是我本身既不懂
bioinformatics,也不懂GSEA。
看GSEA的介绍是用来分析gene expression的。可是那个老师的数据是gwas的snp data
。我想是不是搞错了啊?而且gwas的数据那么大。。。光loading就不知道会不会成功。
把plink format的数据改成GSEA的format是件麻烦的事情,不想做无用功。所以用过
GSEA的同学请comment几句。多谢~
x*****d
发帖数: 704
3

1.
自己按照GSEA网站上gct的格式把你的RNA-seq改成gct格式,比如这样
#1.2
20000 6
Symbol Description WT1 WT2.。。。
ACTN1 Actin1 100 100
你可以用FPKM来做GSEA。gene symbol必须大写!因为GSEA用的gene set都是大小写敏
感,而且全是大写的。
2.不是必须的
3.不需要选,自己collapse by gene symbol,除掉duplicate,然后在GSEA界面那里吧
collapse的选项关掉
4.如果你的gene name是official gene symbol的话那就是MSigDB的gene name,个别
gene name可能不一样,这个你得自己去鉴别。实际做的话影响不大。
M********r
发帖数: 142
4
来自主题: Biology版 - Gene expression数据做GSEA的问题
请问,我做Gene expression之后,得到两万多基因的表达值;如果FDR设定0.05之后,
还剩300多。
打算做GSEA,和别人的KD数据比较,那是用FDR filter之后的300多基因,还是直接把
全部基因都导入到GSEA软件里面让GSEA filter?
谢谢!
M********r
发帖数: 142
5
how about putting it in supplementary data?
GSEA+GO
However I saw even nature paper, has this GSEA data/figure
see http://www.nature.com/ni/journal/v11/n3/fig_tab/ni.1839_F4.html
nature doesn't have high quality requirement?
s******a
发帖数: 252
6
I have written reviews on pathway analysis. Pathway, GO and gene sets
analyses are
just bunch of statistical methods. Like any statistical method, it depends
on how you use it and interpret it. Scientific publications often demand
evidence beyond a single statistical method.
One should consider both the quality of gene sets and the underlying
statistical method. GO is often less specific than pathway analysis. MsigDB
(database behind GSEA) is getting too big - one should be careful too. The
type... 阅读全帖
d***s
发帖数: 1062
7
做了一个rna-seq,core给了我们一个excel file。里面有一个很长的list of gene,
每个gene有对应的pvale,logFC,和每个sample的raw read counts以及FPKM。
GSEA是用来分析microarray data,但是网站上说也可以分析RNA-seq data。研究了半
天没搞明白。
1.不知道数据格式怎么转换。
2.不懂GSEA Preranked analysis是什么,这个prerank 是必须的嘛?
3.因为是RNA-seq,怎么选chip platform?
4.怎么让我的list里的gene name对应上MsigDB里的gene name?
求大牛帮忙。先谢谢了。
d***s
发帖数: 1062
8

谢谢,看了一下GSEA的youtube video,好像pre-rank以后再跑GSEA结果反而不好,和
permutation有关。
z********o
发帖数: 428
9
GSEA 就是做出来的FDR会很大,经常没有enriched的pathway. 换换其他方法,不用不
停的试GSEA了。
h******1
发帖数: 94
10
来自主题: Statistics版 - Pooly Expressed Genes in GSEA
In the manual,
http://www.broadinstitute.org/gsea/doc/GSEAUserGuide.pdf
On the page 7, right above "Phenotype Labels", it says
"The GSEA algorithm does not filter the expression dataset and does not
benefit from your filtering of the expression dataset. During the analysis,
genes that are poorly expressed or that have low variance across the dataset
populate the middle of the ranked gene list and the use of a weighted
statistic ensures that they do not contribute to a positive enrichmen
g**********y
发帖数: 423
11
GSEA can be applied as long as you have a ranked gene list, not limited to
gene expression.
I have used it for mutation analysis.
h******3
发帖数: 190
12
My question is whether GSEA can be used to analyze GWAS snp data. and if so, whether there is a limit on the size of input data.
I am also curious how the program is going to recognize the snp id if it
is not designed for snp data...
If you have an idea, please let me know.Thanks so much~~
h******3
发帖数: 190
13
Thanks. I know nothing about GSEA. Ranked in terms of which criterion?
r*****o
发帖数: 140
14
用gengen吧,他是专门为SNP做的GSEA
M********r
发帖数: 142
15
文章说,做了Microarray,通过GO分析,发现70个基因跟binding 有关 50个catalytic
activity 40个enzyme regulator activity 等等。
是不是其实并没有发现特别有意思的基因,往往就弄一幅图,放上这个糊弄了事。
对吧?
还有那个GSEA分析,能得到这样的图,是什么意思啊?
w*******d
发帖数: 396
16
GSEA的那个图是说,他们array的结果和别人做的p53 down的结果相似。

catalytic
y***i
发帖数: 11639
17
你觉得GSEA和go或者IPA比怎么样?
我觉得没有独立于基因表达的数据,用fold change/pValue去推peak,机理上很没道
理。没理由认为它比Go或者IPA强。
W***o
发帖数: 6519
18
来自主题: Biology版 - Gene expression数据做GSEA的问题
all genes imported to GSEA for cluster/pathway analysis.
W***o
发帖数: 6519
19
来自主题: Biology版 - Gene expression数据做GSEA的问题
I usually write code to run GSEA in terminal. I can copy you my settings
later.
x*****d
发帖数: 704
20

GSEA does not show directionality, so "significantly enriched in WT" could
be either positively enriched in WT or negatively enriched in WT.
c****1
发帖数: 1095
21
来自主题: Biology版 - GSEA questions
1. The default “Metric for ranking genes” is “Signal2Noise”. I ran
GSEA, and used this option, and got good results. But when I go through the
manual, I found this note “The default metric for ranking genes is the
signal-to-noise ratio. To use this metric, your phenotype file must define
at least two categorical phenotypes and your expression dataset must contain
at least three (3) samples for each phenotype. If you are using a
continuous phenotype or your expression dataset contains fewer th... 阅读全帖
d*******e
发帖数: 1649
22
来自主题: Biology版 - GSEA questions
1 你首先要确保有足够的sample数量。比如你要比较2组,每组2个,一共只有4个
sample,那么GSEA不是很适合,因为误差可能很大。如果一定要做,那么用什么方法都
无所谓。不要merge sample。
2 不要filter out transcriptome,你可以选择不同定义的gene sets,就是gmt文件,
来选择你要比较的gene是transcriptome里面的。

the
contain
NGS
h******1
发帖数: 94
23
来自主题: Statistics版 - GSEA and GOstat Analysis
When choose GSEA and when GOstat analysis?
h******1
发帖数: 94
24
来自主题: Statistics版 - Collapsing for GSEA
What is the best way to collapse the dataset with gene symbol redundancy
in GSEA?
f*********8
发帖数: 165
25
来自主题: Statistics版 - Pooly Expressed Genes in GSEA
what do you mean by "offset in the side of GSEA"?
F*****d
发帖数: 23
26
来自主题: Biology版 - 小教程:从基因组数据到功能
很多朋友拿到芯片或二代测序结果(Microarray, RNA-Seq, ChIP-Seq, etc)后, 第一
个问题通常是“在我的实验中那些变化的基因有什么功能?”其实有很多工具可以解决
这个问题,但大多数生物学家仍需要很多帮助。所以我写了这个简单流程,希望对大家
有帮助。也欢迎高手指正并介绍其它好工具。
英文版链接:
http://goo.gl/ZlprLJ
步骤1 。原始数据分析
大多数时间,你拿到结果时会有基本的分析文件列出所有基因的表达值。
如果你只有原始数据,那么需要用相应软件处理。比如: GCRMA/RMA 分析表达芯片,
Homer/MACS分析 ChIP-Seq, Cufflink/RSEM 分析RNA-Seq.
步骤2。筛选差异表达基因
经常你会看到结果中有Fold Change (或 log Fold Change), P-value, FDR (或
adjusted P-value 或 Q-value). 如果没有,你可以使用limma来分析芯片,用DeSeq,
EdgeR, 或CuffDiff来分析RNA-Seq.
筛选基因时我建议用Fold Chan... 阅读全帖
l***y
发帖数: 4671
27
来自主题: Biology版 - 小教程:从基因组数据到功能
GSEA 有两个意思,一个是 GSEA 这个方法本身,另一个是用 Broad 建的 gene sets
以及工具来做分析。
如果你做的数据没有现成的 gene sets,那可能你要自己定义一下了。
我们组平时主要用 GSEA 这个方法,自己定义自己的 gene sets 做分析。
H**********f
发帖数: 2978
28
来自主题: DataSciences版 - 一道药厂computational biology的面试题
GSEA确实经常用于基因表达分析,但不是一回事。GSEA看哪些个gene set整体(主要是
pathway)和实验组有关,不用于预测,主要是千老(比如我)解释生物学意义,灌文
章。楼主的问题,就是要选一组marker,不一定在一个pathway,目标就是预测准确,
不要生物学意义
l***y
发帖数: 4671
29
Knowledge discovery 经常用到 working hypothesis,这种 hypothesis 本身的意义
并不重要,重要的是可以作为工具用来筛选 knowledge,比如说筛选 associations,
causal relations,等等。构建这样的 working hypothesis 是整个工作中最核心最具
挑战的地方。
大部分备选的 working hypothesis 都特别简单。比如说GSEA 就是用一个很简单的 KS
test。可是极其难构建出合适的来,需要对要做的问题的脾气以及数据的味道吃得特
别透,还需要有些直觉或者说运气。手头有一个已经做了快一年了,死去活来欲哭无泪
啊。
d******u
发帖数: 178
30
来自主题: Biology版 - 请教microarray的数据分析
常规的分析:
hierarchical clustering
PCA/MDS (Principle Component Analysis/Multi-dimensional Scaling)
class comparison (t-test/SAM)
GSEA
GO enrichment
比较好的free的网站:
NCBI Gene Expression Omnibus (GEO)
http://genechaser.stanford.edu/
软件:
D-Chip
BRB ArrayTools
g***s
发帖数: 60
31
来自主题: Biology版 - 请教microarray的数据分析
多谢指点,
有没有什么深入浅出的纸版的书可以推荐。

常规的分析:
hierarchical clustering
PCA/MDS (Principle Component Analysis/Multi-dimensional Scaling)
class comparison (t-test/SAM)
GSEA
GO enrichment
比较好的free的网站:
NCBI Gene Expression Omnibus (GEO)
http://genechaser.stanford.edu/
软件:
D-Chip
BRB ArrayTools
t*d
发帖数: 1290
32
我现在在做这个,也在摸索。所以随便讲讲。
我们现在做的是比较treatment以后,基因表达的变化。microarray找出了好几百个基
因。所以我先用 GSEA 做了一个pathway/geneset analysis,看看那个pathway/
geneset 显著的变化了。然后从几个感兴趣,又显著的pathway/geneset中,找出那些
表达变化比较大的基因,用q-PCR,western,immunohistochemistry验证。然后和已
经发表的文献联系联系,扯上几句。比如A基因和细胞增殖有关,我的处理也和增殖有
关,但是A基因和我的处理的关系没有被报道,这样我在discussion里讨论讨论,把他
们联系起来。当然,如果条件许可,进一步做一些 gain of function 和 loss of
function 的实验,就更好了。做 GOF 和 LOF 比较费时,所以多看看文献,再决定哪
个基因的变化更可能有表型。这个时候你自己的 microarray 数据帮不上太多的忙,需
要你的专业知识,别人的报道,别人的 microarray 数据 (比如有人做过的有临床数
g******w
发帖数: 78
33
The best is GSEA from Broad Institute
y******e
发帖数: 277
34
谢谢楼上的大牛们回复~~~
跑去仔细看了DAVID,好像不能自己upload user-specific population group?
如果说错了,烦请指点 :)
Blast2GO以前用过babelomics上的server,很好用,不过好像必须先进行blast再
annotate才行?
GSEA好高级。。。>_<
我的问题很简单啦,就是两个gene lists,list1 = study group, list2 =
population group, 不是microarray,没有expression files。果蝇的基因,有现成的 GO annotation files。希望找出list1里significantly over/under-represented GO
找program找的头大,完全不清楚该用哪个,结果又没什么相同的
向大家请教!:)多谢建议!!
ps: 到底怎么发包子啊。。。木有看到可以转账啥的
g******w
发帖数: 78
35
ingenuity is the best in commercial software.
gsea is the best in free software.
david actually sucks except its simple interface. I guess most people use
david because what need to do is just clicking mouse. BUT please take
enrichment analysis really seriously. Read instructions carefully as you
read paper. Otherwise you may waste time and money in afterward exploration.
t*d
发帖数: 1290
36
这个差异到底有多大?能不能把你的结果 copy 一份给我?我自己一般用GSEA,没有想
到不同的工具会给出不同的结果。应该是一个很简单的东西,如果结果非常不同的话,
我要考虑把我的东西也重算一下了。
t*d
发帖数: 1290
37
有没有人研究这个?
不同可以,但是多大程度不同?这么多人用这个分析,而且大部分都是用 Fisher
exact test (GSEA可以不比,它用了不同的方法)。如果这么简单一个东西都做不出
一个大致 consistent 的结果,那些开发这些程序的人也太水了。
K**4
发帖数: 1015
38
GO和GSEA用不同的database,所以结果肯定不同
至于GO分析,不同的方法产生结果自然不同,肯定要自己比较一下
g******w
发帖数: 78
39
来自主题: Biology版 - 请教一个基因聚类的问题
gsea - for function annotation
s******a
发帖数: 252
40
GSEA @ Broad, DAVID @ NCI/NIAID.
Ingenuity Pathway Analysis if you have a license.
o********r
发帖数: 775
41
我很理解你不同意我对GAGE的看法,我也没有准备说服你。
关于你说的consistency和biological relevance放一起的说法,嘿嘿,你认为我说的
RB1 gene和RB相关这个论述是缺乏consistency呢还是biological relevance?至于你
说不做实验验证的理由是不需要,这个说法是在让人失望。你说找不到人做实验都比这
个强无数,不需要实验验证说明啥?说明你们找到的所谓consistent and
biologically relevant的东西都是别人找到的。难道你向你的潜在用户推荐的时候说
,我的东西好,找到的东西都不需要实验验证,因为那些都有人发现了。。。话说我自
己用这种方法发文章的时候还是做出了新的预测,并且试图找人实验证实,只是最后未
果。这就是我说的证明你东西的办法:predict一个没有人预测过的东西,然后做实验
去证明。
最后,重申一下,我前面指出的场景是有可能出现的:通过clustering找到了一个co-
regulated set(实际和某TF活性相关),并且可能有biological relevance,自然就
成为一个... 阅读全帖
r****q
发帖数: 22
42
‘RB1 is related to RB’ is a statement, not a prediction or inference. You
may develop this into a problem to solve, but it is nothing more than a
meaningless or trivial one. I don’t see any comparability between solving
this problem and gene set analysis.
I never say experiment evidence is not needed. I just say it was not needed
to do our own verification experiment there. GAGE identified so many
pathways that GSEA and PAGE did not, and whose biological relevance has been
well established in li... 阅读全帖
b*****l
发帖数: 9499
43
来自主题: Biology版 - 统计学在系统生物学的作用
几万个基因那也是样本啊,同学,一样提供自由度的。可以把几万个基因的海量自由度
拆借到 sample 的自由度上去。大致有两类拆借方式,一类是直接拆借,衍生出一系列
的 t-test 方法;另一类是寻找 gene set,也就是 GSEA 了。
至于重复性如何,要用数据说话。有些 marker 的重复性那是相当的好。
b*****l
发帖数: 9499
44
来自主题: Biology版 - 统计学在系统生物学的作用
稳定性可以改进么,概念上问题还是不大的。
IPA 的算法,说来 ft:先给个 pathway,数出里面 protein 的个数(比如说 n),然
后看 DEGs 里面出现了多少个(比如说 m),那么 m/n 就是这个 pathway 的 index。。
。这还不如 GSEA 的算法靠谱呢。
后来据说他们也要开始考虑每个 protein 的 fold change 了。。。
j*p
发帖数: 411
45
来自主题: Biology版 - transcriptional factor
Try GSEA, see which TF is enriched in your dysregulated gene sets
d*******e
发帖数: 1649
46
ingenuity
genego
gsea
d*******e
发帖数: 1649
j*p
发帖数: 411
48
what are you trying to do? in other words, what is your question?
U********S
发帖数: 1896
h******3
发帖数: 190
50
多谢!看起来不错。
用法简单吗?
1 2 下页 末页 (共2页)