关于基因表达的统计学问题，不知发这是否合适 - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 关于基因表达的统计学问题，不知发这是否合适

相关主题
● R: how to convert a scatter plot to a contour color plot?	● 如何建立多重变量回归模型？
● How to rank variables in regression?	● test whether it's LINEAR relationship
● Correlation between 2 variables	● 在R里如何连接一个字符变量和一个字符？
● regression的时候什么时候要standardize variables？	● quick question in R
● Python:请问如何把list变成structured array。 (转载)	● 外行请教：统计跟随机过程是一种什么关系？
● adding colors to data points in scatter plot in R	● multicollinearity and factor analysis
● Is there any correlation between the two data set?	● 为什么不能把ABLINE加到散点图中了
● [合集] 请教一个统计问题	● 请教如何做一个类似 boxplot 的图，包子酬谢

相关话题的讨论汇总
话题: 表达话题: 基因话题: 雄性话题: gene话题: 数据

进入Statistics版参与讨论

(共1页)

t**********y
发帖数: 374

具体的数据如附图所示
这里是10，000 个基因的表达情况。
上面一个图的每个点是这些基因在两个雌性个体中的表达量，每个坐标轴表示一个个
体。
下面一个图类似，每个点是基因在两个雄性个体中的表达量，每个坐标轴表示一个个
体。
大致的趋势是，高表达的基因，在两个同性个体中的表达趋于接近。但两个图有明显
的不同，就是上面的图（雌性数据）were more scattered.
问题如下：如果以下面的图（雄性数据）的趋势作为基准的话，如何找出上面图中那
些更加scattered的点（gene）?
非常感谢！

a****g
发帖数: 8131

standardize expressions in female
then define a threshold for selection purpose

s******s
发帖数: 13035

这两个图是你画的么？

【在 t**********y 的大作中提到】

: 具体的数据如附图所示
: 这里是10，000 个基因的表达情况。
: 上面一个图的每个点是这些基因在两个雌性个体中的表达量，每个坐标轴表示一个个
: 体。
: 下面一个图类似，每个点是基因在两个雄性个体中的表达量，每个坐标轴表示一个个
: 体。
: 大致的趋势是，高表达的基因，在两个同性个体中的表达趋于接近。但两个图有明显
: 的不同，就是上面的图（雌性数据）were more scattered.
: 问题如下：如果以下面的图（雄性数据）的趋势作为基准的话，如何找出上面图中那
: 些更加scattered的点（gene）?

t**********y
发帖数: 374

是啊！用的是R.
有什么问题吗？

【在 s******s 的大作中提到】

: 这两个图是你画的么？

t**********y
发帖数: 374

能具体一点， how to standardize?
多谢了！

【在 a****g 的大作中提到】

: standardize expressions in female
: then define a threshold for selection purpose

s******s
发帖数: 13035

你自己能用R画，后面不应该不会做啊。define个distance，然后自己define个区别的
threshold不就行了

【在 t**********y 的大作中提到】

: 是啊！用的是R.
: 有什么问题吗？

D******n
发帖数: 2836

两个个体，是不是太少了。
你这个貌似是想知道不同sex之间，基因表达的profile的差异，

【在 t**********y 的大作中提到】

t**********y
发帖数: 374

【在 s******s 的大作中提到】

: 你自己能用R画，后面不应该不会做啊。define个distance，然后自己define个区别的
: threshold不就行了

t**********y
发帖数: 374

不是学统计的。只会画图而已。
请提示得具体些。多谢了！

【在 s******s 的大作中提到】

: 你自己能用R画，后面不应该不会做啊。define个distance，然后自己define个区别的
: threshold不就行了

t**********y
发帖数: 374

所以在标题里写了，不知是否该发在这儿。不晓得这是数学问题，还是统计问题。
。。

【在 D******n 的大作中提到】

: 两个个体，是不是太少了。
: 你这个貌似是想知道不同sex之间，基因表达的profile的差异，

相关主题
● adding colors to data points in scatter plot in R	● 如何建立多重变量回归模型？
● Is there any correlation between the two data set?	● test whether it's LINEAR relationship
● [合集] 请教一个统计问题	● 在R里如何连接一个字符变量和一个字符？
进入Statistics版参与讨论

d*****t
发帖数: 7903

我估计他的意思是以male x-axis对应的每个y range为reference，用female的相应
range去除这些个range，得出的ratio产生新的图。然后设定threshold。

【在 t**********y 的大作中提到】

: 能具体一点， how to standardize?
: 多谢了！

a*******7
发帖数: 772

基因在两个个体中的表达，一除，越接近1的，就说明越不scatter；都除完了以后减去
1，按照差的绝对值大小排个顺序，绝对值越大的说明越scatter。
先对两个雄性个体做一下，把绝对值最小的8000个gene找出来，再对两个雌性个体做一
下，先把之前找出来的那8000个gene去掉，剩下的排个顺序，估计就找到了吧。

a****g
发帖数: 8131

上面已经有兄弟回答了就是那个意思
如果有几次实验结果,做个ratio的confidence interval,这样结果会更加可靠

【在 t**********y 的大作中提到】

: 能具体一点， how to standardize?
: 多谢了！

t**********y
发帖数: 374

问题是我希望， gene 表达水平低的可以scatter的范围大一些。也就是说每一个gene
的可允许的variablity 是不一样的。而这个variablity是以雄性样本为基准的。
所以我希望有一种方法可以model 雄性样本的variability, 寻找variance 和mean的关
系, 然后计算出threshhold..

【在 a*******7 的大作中提到】

: 基因在两个个体中的表达，一除，越接近1的，就说明越不scatter；都除完了以后减去
: 1，按照差的绝对值大小排个顺序，绝对值越大的说明越scatter。
: 先对两个雄性个体做一下，把绝对值最小的8000个gene找出来，再对两个雌性个体做一
: 下，先把之前找出来的那8000个gene去掉，剩下的排个顺序，估计就找到了吧。

r********n
发帖数: 40

用Copula比较好。heavy right tail or Gumbel copula都可以。因为它们都是左下角
less correlated, 右上角highly correlated. Do a copula fitting for 雄性数据，
find the correlation coefficient for say Heavy right tail copula. Let's say
we get 0.8 for the male data. Simulate 1,000,000or more data points based
on the 0.8 heavy right tail copula. 模拟数据越多越好，要能够覆盖雌性数据其中
一个边际分布。取雌性数据其中一个边际分布的值，我们取x轴好了。找到最接近的模
拟数据x轴上的值，再找到对应的模拟数据y轴上的max and min 值。比较empirical
female data y axis value and simulated y axis range for the same x axis
value. 若不在区间内，就是scattered data points.

问题是我希望， gene 表达水平低的可以scatter的范围大一些。也就是说每一个gene
的可允许的variablity 是不一样的。而这个variablity是以雄性样........

【在 t**********y 的大作中提到】

: 问题是我希望， gene 表达水平低的可以scatter的范围大一些。也就是说每一个gene
: 的可允许的variablity 是不一样的。而这个variablity是以雄性样本为基准的。
: 所以我希望有一种方法可以model 雄性样本的variability, 寻找variance 和mean的关
: 系, 然后计算出threshhold..

t**********y
发帖数: 374

非常感谢，我琢磨琢磨。
不是统计本行，消耗起来有点慢：）

say
gene

【在 r********n 的大作中提到】

: 用Copula比较好。heavy right tail or Gumbel copula都可以。因为它们都是左下角
: less correlated, 右上角highly correlated. Do a copula fitting for 雄性数据，
: find the correlation coefficient for say Heavy right tail copula. Let's say
: we get 0.8 for the male data. Simulate 1,000,000or more data points based
: on the 0.8 heavy right tail copula. 模拟数据越多越好，要能够覆盖雌性数据其中
: 一个边际分布。取雌性数据其中一个边际分布的值，我们取x轴好了。找到最接近的模
: 拟数据x轴上的值，再找到对应的模拟数据y轴上的max and min 值。比较empirical
: female data y axis value and simulated y axis range for the same x axis
: value. 若不在区间内，就是scattered data points.
:

(共1页)

进入Statistics版参与讨论

相关主题
● 请教如何做一个类似 boxplot 的图，包子酬谢	● Python:请问如何把list变成structured array。 (转载)
● 【包子】也问个Gplot的问题	● adding colors to data points in scatter plot in R
● 请教一个r的问题	● Is there any correlation between the two data set?
● help!! how to explain Coefficient of Variation (CV) to non-statistician?	● [合集] 请教一个统计问题
● R: how to convert a scatter plot to a contour color plot?	● 如何建立多重变量回归模型？
● How to rank variables in regression?	● test whether it's LINEAR relationship
● Correlation between 2 variables	● 在R里如何连接一个字符变量和一个字符？
● regression的时候什么时候要standardize variables？	● quick question in R

相关话题的讨论汇总
话题: 表达话题: 基因话题: 雄性话题: gene话题: 数据

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天