s********k 发帖数: 6180 | 1 online可能不是很准确,一般的correlation计算需要所有的数据,比如我有10000个时
间点数据,要等到10000组数据都采集完,但是我希望能实时计算,比如从第2个时间点
采样开始就计算,然后没一个时间点新采样数据之后更新correlation。希望这个
correlation最后能趋近真实值
for you. |
|
b*****n 发帖数: 143 | 2 A, B and C are three variables. Suppose we know the correlation coefficient
between A and B is x, and correlation coefficient between B and C is y. I
remember that the correlation coefficient between A and C must be in a
certain range. But I can not find the formula. Can anybody tell me? Thanks. |
|
f********k 发帖数: 136 | 3 4个random variable,每两个之间的correlation都一样,都是r,问r的取值范围。
可以想到的方法,用correlation matrix是semi positive definite这个性质,但这个
需要求一个4阶行列式,解一个4阶不等式,显然电面的时候没有时间这么做
第二种方法,根据绿皮书,两个RV之间的correlation类似于两个vector夹角取cos。所
以我们有4个vector,每两个夹角相同,极端情况是0度,所有vector重合,所以得到r
的最大值为1。但是我无论如何都画不出其他情况了,如何画4个vector,两两夹角相同
?3个vector的情况很简单,首尾相接的正三角形。但4个就不知道怎么画了,望高人指
点!
非常感谢! |
|
g******7 发帖数: 19 | 4 not sure about how to do it in excel but given this situation, if r2=.239,
the correlation coefficient will be about .49. you asked whether there is
any correlation, given the null as "no correlation", the corresponding t
will be about 1.86 with df=11 --> statistically no. of course, linearity
assumed.
.
R2=
samples,
regression
|
|
s*****r 发帖数: 790 | 5 我赞同楼下一位说的,correlation 不是similarity的度量。
答案应该是负的但是接近于0。你在后面加的相同的数越多,越接近于0。
intuition: the correlation between a and c is negative, adding sames
elements to a and c will only dilute the negative correlation, but won't
change the sign.
mathematically: you can easily prove it:)
sequences |
|
h*******d 发帖数: 272 | 6 外行求教 在线等 恳请大家多多指点
一个表格里的20多个指标参数,需要做分析比如预测 分类
请问 can variables be eliminated that highly correlated and add little?
(因为参数比较多 很多可能某种程度上重复 或是没有帮助。 )
我开始想的是 放到MINITAB 里 点‘correlation’ 出来CORRELATION MATRIX 后 把
HIGHLY 的去掉
但是觉得太简单鲁莽 于是自学了 PCA. FACTOR ANALYSIS。 但是学了半天发现
1 factor analysis 是PCA 的发展 而PCA 对删除重复指标是没有帮助的。
该怎么办呢 我自己迷糊了 请大家给我点指点吧
谢谢 |
|
w********u 发帖数: 328 | 7 three curves:
1 & 2 has the coefficient of determination, R square, =0.7
1 & 3 has the coefficient of determination, R square, =0.8
Actually, there is no correlation between 1 & 2, for example, sunshine and
the light, they both light up the room but there is no actual relationship
between them. But 1 & 3 indeed has statistical correlation.
Now, how to prove that 1&3 has statistical correlation but 1&2 does not?
Any idea is welcome, especially with some particular formula.
Thank you.! |
|
a****m 发帖数: 693 | 8 数据1: x1, x2的correlation是0.8
数据2: x1, x2的correlation 是0.2,一般情况下如果合并数据1和数据2. x1, x2的
correlation是不是在0.2 和0.8之间?
可能和variance 也相关?
3x
包子答谢。 |
|
a****m 发帖数: 693 | 9
谢谢,
我的问题是partial correlation, 就是说是covariance的倒数,去做simulation的时
候,就是把correation matrix,倒数就得到了covariance,然后,MVNRND(Mean,
Covariance) sampling, 我在想,如果有一组数据,和另一组数据因为他们原来的
correlation matrix 不一样, 不知道他们合在一起,去求correlation,他们的范围在
哪里?
如果一个是负数,一个是正数,可能不知道他们的值是多少。 |
|
h*****u 发帖数: 204 | 10 1 有3个变量y,x1 and x2,
2 假如correlation 系数(y,x1)=a1>0 and correlation 系数(y,x2)=a2>0,
3 Do the multi linear regression y as a funtion x1 and x2, suppose we get y~
b1*x1+b2*x2, 但是这里b1<0, b2>0.
从2中,我们得知y和x1的关系是同向变化的, 但是由于Do the multi linear
regression,我们得到 y~ b1*x1+b2*x2, 如果固定x2不变的话,我们就得到了y与x1
的关系是反向的。
我的问题是: 有没有一个办法让multi linear regression的系数的符号跟
correlation 系数的符号是一致的? 谢谢 |
|
t***q 发帖数: 418 | 11 有一个工作中的一个correlation analysis的问题。有一万个website,每个website每
一天观测一个值,也许是user agent>1 的percentage之类的值,然后每个website就得
到以天为index的一个vector,每个vector之间有一个correlation(可以用pearson'之
类的算一下),但是一万个website之间的correlation的关系,generally的怎么
evaluate?
盼回复。多谢! |
|
t***q 发帖数: 418 | 12 有一个工作中的一个correlation analysis的问题。有一万个website,每个website每
一天观测一个值,也许是user agent>1 的percentage之类的值,然后每个website就得
到以天为index的一个vector,每个vector之间有一个correlation(可以用pearson'之
类的算一下),但是一万个website之间的correlation的关系,generally的怎么
evaluate?
盼回复。多谢! |
|
D*********2 发帖数: 535 | 13 Small pvalue means there is a statistically significant NON-ZERO correlation
. This correlation might be .9, or .2, or even smaller. I saw paper on NEJM
claim statistical significant correlation with rho = .03, and p <. 0001. You
could imaging how large their sample size is.
btw, u might wanna use fisher transformation before using t test. |
|
t*******0 发帖数: 64 | 14 大概有30-60个病人如下的data:
第一组是patient variable(demographics: age, race, etc)(5-10 variables)
第二组是patient clinical diagnosis 结果(10 variables: continuous or ordinal
,从不同的方面对病人的诊断)
第三组是一种新的检查仪器的结果(about 300 variables)
想知道:
1. 第二,三组之间的correlation, 由于变量太多, 传统的pearson/spearman
correlation不好用
2. 第三组数据能不能 predict 第二组数据: clinical diagnosis是gold standard,
是否
patient 检查仪器的结果能predict clinical diagnosis的结果, 要对每个clinical
variable做regression(clinical variable is dependent variable, 检查仪器的
variables as independent var... 阅读全帖 |
|
|
l******9 发帖数: 579 | 16 I am working on data analysis.
Given a group of data vectors, each of them has the same dimension. Each
element in a vector is a floating point number.
V1 [ , , , … ]
V2[ , , , … ]
...
Vn [ , , , … ]
Suppose that each vector has M numbers. M can be 10000.
n can be 200.
I need to find out how to partition the n vectors into sub-groups such that
each vector in one subgroup can be represented by a basic vector in the
subgroup.
For example,
W = union of V1, V2, V3 … Vn
Find subgroup i... 阅读全帖 |
|
t**********y 发帖数: 374 | 17 两个populations: population 1, 取10个samples; population 2, 取8 samples;
计算correlation coefficients among the samples from each population:
population 1, a total of 45 correlation coefficients calculated and the
average was 0.41; population, a total of 28 correlation coefficients
calculated and the averages was 0.9;
我的结论是:samples in population 2 have significantly lower variations when
compared with the samples in population 1
请问这种情况什么test可以用,得个p value?
多谢了!! |
|
g**a 发帖数: 2129 | 18 Based on what I read in this post. He did use expression values from 10,000
probes for each patient. Then he calculated correlation coefficient between
any two patients. That is why he could get 45 (choose(10,2)) correlation
coefficient. Those values are measuring expression for different genes. So
they are different variables for the same person. So they are not
independent but different variables.
I agree with you that to calculate correlation coefficient between 2 samples
for those genes are ... 阅读全帖 |
|
s********1 发帖数: 235 | 19 【 以下文字转载自 Database 讨论区 】
发信人: someone111 (some), 信区: Database
标 题: 如何把一个correlation matrix 按照一个table 输入一个 database 里?
发信站: BBS 未名空间站 (Tue Dec 8 16:13:07 2015, 美东)
如何把一个correlation matrix 按照一个table 输入一个 database 里?有大约1000,
000 X 1000, 这么多vectors ,每一对vectors 算一个 correlation, 要输到database
的表里,每一个vector 都有一个常量string 对应,所以不牵扯把vector 输到
database table 里。怎么弄比较好?主要以后可能要拿这些代表 vector 的常量
string 做key join table. |
|
p*****e 发帖数: 989 | 20 【 以下文字转载自 Mathematics 讨论区 】
发信人: profile (profile), 信区: Mathematics
标 题: correlation coefficient
发信站: BBS 未名空间站 (Wed Jun 18 13:49:51 2014, 美东)
请教大家一个问题,有没有什么方向,关键词,专门研究correlation coefficient和
sample size,subsample的关系?比如怎么找到某一个subsample计算correlation
coefficient最大? |
|
B*********L 发帖数: 700 | 21 1.我想计算两个时间序列的correlation,有没有什么办法让最近的数据有更多的权重?
2.怎样计算两个array(array1(x,y)和array2(a,b))的correlation?如果可以
,这个结果是一个数还是一个组数?什么含义?
俺读书少,国内80名以后本科水平,怕听不懂,所以请将军们多指点两句。谢谢。 |
|
s********k 发帖数: 6180 | 22 采样不完全的意思是本来我这个时间序列需要采样比如10000个点,但是我现在想开始
采样第10个点的
时候就计算correlation,然后每次再采样一组数据update一次,就是相当于一个实时的
correlation计算,而不是等到所有数据点都采样之后再计算。 |
|
r****d 发帖数: 239 | 23 不知道你的online算法是什么意思,不然如果你能每一时刻把数据传到EXCEL里用
CORREL不就能算correlation了么? |
|
m********0 发帖数: 2717 | 24 trader1688上也有人提过pair trading,并有人表示怀疑。
这个idea是80年代摩根斯坦利的人提出来的idea,然后finance行业的人又比较liquid
,跳几次
槽,这个idea就逐渐流行起来了。
基本的想法是,high correlated的two stocks,spread比较稳定,假如某个时刻出现
了比较
背离average的情况,基本上是可以认为一个overprice,一个underprice,然后long那个
underprice的,short overprice的symbol,以期spread恢复至正常。
这里overprice和underprice都是相对而言,加入两个symbol都涨了,期望的是long那
个涨的
比short的那个幅度更大,spread还是可以按照期望发展,反之亦然。
我测试过NASDAQ的2700多个symbol的测试,算Spearman和Pearson的correlation都用过,
然后用程序scan了一遍所有的symbol之间,两两trade会有什么结果,entry和exit的参
数当时
都是用了常数,但是都是在很大的范 |
|
m********0 发帖数: 2717 | 25 你说的没错,
精确一点说是用cointegration model来做。
idea是beta hedge,
考虑到stationary term是independent的,
hedge nonstationary term by beta ratio.
相对稳定的beta ratio,是有较高的correlation,
出发点是不用频繁hedge同时有stationary spread的mean reverting。
cointegration model理论上严密一些,但我的印象是,
cointegrated的time series,common part(beta term)的确是correlated。 |
|
G*F 发帖数: 427 | 26 这个恐怕不对。Cointegrated pair甚至可以是不correlated, 更别说是+1/-1这样
perfectly correlated的了。
我算了算RDN/MTG这对的cointegration有多高:
Assumed hedge ratio is 0.6944532
ADF p-value is 0.01
Dickey-Fuller = -4.172, Lag order = 0, p-value = 0.01
alternative hypothesis: stationary |
|
B*******t 发帖数: 135 | 27 钱多自然有钱多人的办法,比如Goldman给Facebook弄的那个SPV。甚至钱更多人的像
Paulson还可以跟Goldman订制做空房地产的东东。
但我说现在说的是普通人。
我知道有像sharespost这样的private exchange。但是那些private的东西,liquidity
非常差。投资泡沫最重要的一条是liquidity要好,这样到看着差不多了赶紧要抽身走
人的时候不至于拔出来晚了。
我就像问问有没有下面这中vehicle
1) Strongly correlated with the start-up or pre-IPO tech/internet companies
2) Public traded
3) Relatively liquid
目前想到的tech的ETF满足后两条,但是第一条correlation不够强。 |
|
o*r 发帖数: 295 | 28 correlation和leverage是两个概念
fas涨3%的时候edc可能跌3%
fas,edc和各自基于的index是100%correlated,但是这两者之间关联并不强 |
|
b*****l 发帖数: 161 | 29 一个stock在两个exchanges有没有必然的correlation?
这两个listings定期内价格需要统一吗?
请给个link解惑一下。
ASML HOLDING 在NASDAQ 和 AEX都有LISTING,correlation不是很强。
你们操作IRE会参考欧洲开盘价吗?谢谢! |
|
l********y 发帖数: 345 | 30 all chinese stocks are somewhat correlated. In case BIDU is a bomb, try to
reduce these correlations in your account is a good idea before market close
today, esp. if you are all in chinese stocks. |
|
P**********e 发帖数: 543 | 31 What is the correlation between gold:commodity pair during these many years?
Gold: crude had a good correlation at 10:1 for years, but now it become 20:1 |
|
s********k 发帖数: 6180 | 32 【 以下文字转载自 EE 讨论区 】
发信人: silverhawk (silverhawk), 信区: EE
标 题: 求助时间序列correlation的问题
发信站: BBS 未名空间站 (Fri May 7 14:43:51 2010, 美东)
假如有两个时间序列A,B. 之间的correlation为rho(假设rho比较大),有没有什么办
法将A表
示成为一个B和rho的函数?A=f(B,rho).不要求数学意义上相等,数值意义上近似即可
。谢谢 |
|
s********1 发帖数: 235 | 33 如何把一个correlation matrix 按照一个table 输入一个 database 里?有大约1000,
000 X 1000, 这么多vectors ,每一对vectors 算一个 correlation, 要输到database
的表里,每一个vector 都有一个常量string 对应,所以不牵扯把vector 输到
database table 里。怎么弄比较好?主要以后可能要拿这些代表 vector 的常量
string 做key join table. |
|
s******s 发帖数: 13035 | 34 呵呵,我都忘的差不多了,说错了大家轻peng
那个correlation,也就是常用的Pearson correlation,
这玩意儿就是看线性关系用的。如果不是线性,这个就
不太好用,甚至毫无意义。
B |
|
c***y 发帖数: 615 | 35 在做RNAseq data analysis. 有一个differentially expressed gene list (大概两千
基因),想看看这些基因表达趋势是否相过,所以简单run了一个spearman correlation
. 看了下between-gene correlation coefficient, 发现很多都是1. 这种数据正常吗?
多谢了! |
|
e*********6 发帖数: 3453 | 36 对这种correlation,不都是2个vector直接进行计算吗,比如我们算X1和X2直接的
correlation,X1和X2要是一样的大小。我问的对你的情况,X1和X2的size是多大? |
|
m*e 发帖数: 1018 | 37 【 以下文字转载自 Science 讨论区,原文如下 】
发信人: mie (cookie), 信区: Science
标 题: Help!有什么软件可以计算Correlation function
发信站: Unknown Space - 未名空间 (Sun Oct 3 18:22:41 2004) WWW-POST
由于我不是搞计算的,拿着这个问题在很短的时间内实在没办法。
我手上有一组2D数据,不知道有什么软件可以直接计算这些点的pair correlation
function, 多谢了! |
|
z***n 发帖数: 30 | 38 any mixed strategy profile can be achieved by using a correlated strategy
profile, but the opposite is not true. this is because the dim of the space
of correlated strategy profile is lower. |
|
s********k 发帖数: 6180 | 39 不是这么简单吧,rho是两个之间的correlation,应该不能直接用吧,要不
correlation为0的情况岂不是A=0. |
|
q******1 发帖数: 220 | 40 不好意思,漏打了个条件,the correlation coefficient of Y, Z is 0.8.
刚刚又考虑的一下,想出来了。。。
从correlation coefficient的公式说起r(X,Y)=cov(X,Y)/sqrt(Var(X),Var(Y)),
where cov(X,Y)=E(XY)-EXEY and X, Y are r.v. on (S, P). So r(X,Y)=cosA, A is
the angle between the vector X-EX and Y-EY in L^2(P).
Therefore, original question becomes a simple question in linear algebra. |
|
s********k 发帖数: 6180 | 41 【 以下文字转载自 EE 讨论区 】
发信人: silverhawk (silverhawk), 信区: EE
标 题: 求助时间序列correlation的问题
发信站: BBS 未名空间站 (Fri May 7 14:43:51 2010, 美东)
假如有两个时间序列A,B. 之间的correlation为rho(假设rho比较大),有没有什么办
法将A表
示成为一个B和rho的函数?A=f(B,rho).不要求数学意义上相等,数值意义上近似即可
。谢谢 |
|
p*****e 发帖数: 989 | 42 请教大家一个问题,有没有什么方向,关键词,专门研究correlation coefficient和
sample size,subsample的关系?比如怎么找到某一个subsample计算correlation
coefficient最大? |
|
s**a 发帖数: 178 | 43 COMPANY: Global leading investment bank
LOC: London, UK
POSITION: Fixed Income Derivatives Correlation Quantitative Analyst
TITLE: VP/Director, DOE
RESPONSIBILITIES: Work with the London structurers and the global trading
desk to produce analytics in support of the Correlation Credit products
business. Products include CDS, CDO's, CDO-squared, CDS and CDO tranche
options, TRS, CPPI, and hybrid products. Activities include: researching,
implementing and testing new, cutting-edge models; producin |
|
m******e 发帖数: 45 | 44 How to generate uniform [0,1] distributed random numbers with correlation
rho?
generating correlated gaussian r.vs are trivial, but it seems there is no
clean way
for uniform r.v. , any idea? thanks. |
|
d**s 发帖数: 920 | 45 Hi, All:
This is a general math (statistical) problem.
If I believe Apple's stock(AAPL) is correlated to stock price of Research in
Motion(RIMM), and is also correlated to the movement of Nasdaq(QQQQ), that
is, I think the price change of AAPL can be formulated as:
AAPL% = a*RIMM% + b*QQQQ%
where:
AAPL% is the price change of AAPL,
RIMM% is the price change of RIMM,
QQQQ% is the price change of QQQQ,
a and b are two coefficients.
My question is that, how can we calculate these two coefficients a |
|
t**********a 发帖数: 166 | 46 It really depends on your assumption.
If correlation is a jump process, what you estimate assuming it is a
constant will not be good ...
Correlation is usually stochastic and unstable. |
|
w********u 发帖数: 328 | 47 empirical correlation我在网上查了很久,既查不到具体公式,又查不到例子,我想
解决一个问题,有a,b,c三个变量,每个变量有每天的数值,一共一年,现在想assume
a portfolio that contains non-zero amount of a,b and c. Develop a model that
manage the downside and maximize the profit from the portfolio 用empirical
correlation. 请问,哪位是否可以给一点思路?或者给我一些于此例类似的相关链接
,我找了半天也没有google出来。
万分感谢!! |
|
w**********y 发帖数: 1691 | 48 自信之前也得double check一下吧..
你知道correlation的定义么?covariance呢? 任何一个random variable跟自身的
correlation都是1这是个常识吧,你觉得呢?
你再去check一下martingale的定义..然后你再check一下2*W_{t/4}是不是martingale;
假设你定义那个 X_t = tW_t + \sqrt{1-t^2}B_t..
你算算 E(X_{1/2} | F__{1/4})是什么..是X_{1/4}么? |
|
t***l 发帖数: 3644 | 49 你觉得你说的这些我是不懂?太把自己当回事了吧。
这里又不是发paper,难道得一步一步写清楚。楼主说的显然是correlation process啊。
我当然知道correlation不关filtration什么事情。。。我的意思是你讨论两个BM,却
不用同一个filtration,你见过吗?举个例子看看?
你想想一个多维的BM,每个分量上的BM都用的同一个filtration吧,为啥?
.
(t |
|
g******r 发帖数: 29 | 50 well, given 2 random processes X Y
i think we can define the correlation of X Y
as the correl(X_t, Y_t),
if dX_t = a_t dB_t
dY_t = b_t dW_t where B W two brownian motions
the quadratic variation of X_t and Y_t
E[\int_0^t a*b ] = E[\int_0^t a dB * \int_0^t b dW] = cov(X_t, Y_t)
is the quadratic variation of B and W
.
(t |
|