由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Quant版 - 请教序列的比较问题
相关主题
求解蒙特卡洛方法的题目 1 (转载)一个很简单的面试问题
job opportunities in Shenzhen[合集] 请教一个简单的问题
深圳量化投资工作机会[合集] 请教一个概率问题
怎么用时间序列来计算两支股票的covariance?请教一道概率题。
Job openings in Shanghai问一个关于binomial r.v.的问题
DLL 文件能被改写吗?请问matlab里能做一个black box么?
有谁面过renaissance?问个老题 E(sin Wt)
GS interview question求助新鲜面试题!!!
相关话题的讨论汇总
话题: 序列话题: 量化话题: 关系话题: 位置
进入Quant版参与讨论
1 (共1页)
t*******8
发帖数: 170
1
听说这里有很多大牛,所以来碰碰运气哈。
遇到一个难题了:
上次没有说清楚,表达能力太差,这次再说一遍:
其实是有120条序列,每条序列有100个值,每个值的取值是20种可能性的一种(如:A,B,。。。,O)。问题是:如何确定序列的第3个位置和第6个位置的之间的关系?我想过用covariance,不过那把这些A,B,。。都量化了,本身它们只是不同而已,就是catergory,没有量化关系,所以结果不对。有什么方法能够确定第3和第6位置的两列数据的关系呢?
position 1 2 3 4 5 6 7 8
obs
1 A D G A E F H A
2 F C G N L N H O
3 D D I J K F M A
.
.
.
120
这些取值都是20种可能性的一种,这和它们的distribution的关系,我还没有想清楚。
谢谢先!
z****g
发帖数: 1978
2
I can only come to conditional distribution of the 6th column conditional
on the 3th column. However, it seems not enough data is presented.

种(如:A,
B,。。。,O)。问题是:如何确定序列的第3个位置和第6个位置的之间的关系?我
想过用
covariance,不过那把这些A,B,。。都量化了,本身它们只是不同而已,就是ca
tergor
y,没有量化关系,所以结果不对。有什么方法能够确定第3和第6位置的两列数据的
关系呢?

【在 t*******8 的大作中提到】
: 听说这里有很多大牛,所以来碰碰运气哈。
: 遇到一个难题了:
: 上次没有说清楚,表达能力太差,这次再说一遍:
: 其实是有120条序列,每条序列有100个值,每个值的取值是20种可能性的一种(如:A,B,。。。,O)。问题是:如何确定序列的第3个位置和第6个位置的之间的关系?我想过用covariance,不过那把这些A,B,。。都量化了,本身它们只是不同而已,就是catergory,没有量化关系,所以结果不对。有什么方法能够确定第3和第6位置的两列数据的关系呢?
: position 1 2 3 4 5 6 7 8
: obs
: 1 A D G A E F H A
: 2 F C G N L N H O
: 3 D D I J K F M A
: .

c*********g
发帖数: 154
3
看看Hidden Markov Model吧。

种(如:A,B,。。。,O)。问题是:如何确定序列的第3个位置和第6个位置的之
间的关系?我想过用covariance,不过那把这些A,B,。。都量化了,本身它们只是
不同而已,就是catergory,没有量化关系,所以结果不对。有什么方法能够
确定第3和第6位置的两列数据的关系呢?

【在 t*******8 的大作中提到】
: 听说这里有很多大牛,所以来碰碰运气哈。
: 遇到一个难题了:
: 上次没有说清楚,表达能力太差,这次再说一遍:
: 其实是有120条序列,每条序列有100个值,每个值的取值是20种可能性的一种(如:A,B,。。。,O)。问题是:如何确定序列的第3个位置和第6个位置的之间的关系?我想过用covariance,不过那把这些A,B,。。都量化了,本身它们只是不同而已,就是catergory,没有量化关系,所以结果不对。有什么方法能够确定第3和第6位置的两列数据的关系呢?
: position 1 2 3 4 5 6 7 8
: obs
: 1 A D G A E F H A
: 2 F C G N L N H O
: 3 D D I J K F M A
: .

s***e
发帖数: 267
4
Typical approach is to use contingency table. But as Ziqing said, it seems
that you do not have enough data
since each variable takes 20 possible values. It may be possible to find out
some coarse information by
splitting the 20 possible values into two groups, for example, and then
examine the aggregated contingency
table, but you need to be careful about that as there are 2^20 ways to split
and surely there will be some split
which could lead to some significant results.

种(如:A,B,。。。,O)。问题
是:如

【在 t*******8 的大作中提到】
: 听说这里有很多大牛,所以来碰碰运气哈。
: 遇到一个难题了:
: 上次没有说清楚,表达能力太差,这次再说一遍:
: 其实是有120条序列,每条序列有100个值,每个值的取值是20种可能性的一种(如:A,B,。。。,O)。问题是:如何确定序列的第3个位置和第6个位置的之间的关系?我想过用covariance,不过那把这些A,B,。。都量化了,本身它们只是不同而已,就是catergory,没有量化关系,所以结果不对。有什么方法能够确定第3和第6位置的两列数据的关系呢?
: position 1 2 3 4 5 6 7 8
: obs
: 1 A D G A E F H A
: 2 F C G N L N H O
: 3 D D I J K F M A
: .

t*******8
发帖数: 170
5
多谢回复!这个方法不错,我得好好看看,不过你说的数据量不够,到底多少才够呢?

【在 z****g 的大作中提到】
: I can only come to conditional distribution of the 6th column conditional
: on the 3th column. However, it seems not enough data is presented.
:
: 种(如:A,
: B,。。。,O)。问题是:如何确定序列的第3个位置和第6个位置的之间的关系?我
: 想过用
: covariance,不过那把这些A,B,。。都量化了,本身它们只是不同而已,就是ca
: tergor
: y,没有量化关系,所以结果不对。有什么方法能够确定第3和第6位置的两列数据的
: 关系呢?

t*******8
发帖数: 170
6
多谢回复!我对这个模型不大懂,是不是好像Hidden Markov 是要量化这些数据的吧?
我不想量化是因为有很多方法量化后结果都不大对。

【在 c*********g 的大作中提到】
: 看看Hidden Markov Model吧。
:
: 种(如:A,B,。。。,O)。问题是:如何确定序列的第3个位置和第6个位置的之
: 间的关系?我想过用covariance,不过那把这些A,B,。。都量化了,本身它们只是
: 不同而已,就是catergory,没有量化关系,所以结果不对。有什么方法能够
: 确定第3和第6位置的两列数据的关系呢?

t*******8
发帖数: 170
7
多谢回复!很好的idea,可是有个困难,按照什么标准分组呢?还请多多指教。。。

out
split

【在 s***e 的大作中提到】
: Typical approach is to use contingency table. But as Ziqing said, it seems
: that you do not have enough data
: since each variable takes 20 possible values. It may be possible to find out
: some coarse information by
: splitting the 20 possible values into two groups, for example, and then
: examine the aggregated contingency
: table, but you need to be careful about that as there are 2^20 ways to split
: and surely there will be some split
: which could lead to some significant results.
:

s***e
发帖数: 267
8
If you have some domain knowledge about the meanings of those 20 values,
then you can try to group them based on that. Otherwise it seems difficult
because of the gigantic number of ways to split......

。。

【在 t*******8 的大作中提到】
: 多谢回复!很好的idea,可是有个困难,按照什么标准分组呢?还请多多指教。。。
:
: out
: split

f***a
发帖数: 329
9
If they are unordered categorical data, try contingency table;
If they are ordered categorical data, try contingency table or Rank
correlation http://en.wikipedia.org/wiki/Rank_correlation.
If there are two distribution functions f(x) and g(x) that determine how to
distribute values into column 1 and 6 and you know some information about
them and the data, Bayesian inference may be a good choice.
Hope this helps. Good luck!
m***i
发帖数: 58
10
怎么感觉是生物里面的蛋白质序列问题,20个amino acids
1 (共1页)
进入Quant版参与讨论
相关主题
求助新鲜面试题!!!Job openings in Shanghai
[合集] 请问有人作financial risk management 方面的工作吗?DLL 文件能被改写吗?
[合集] 请问Martingale和Markov属性之间的联系和区别?有谁面过renaissance?
[合集] A statistics questionGS interview question
求解蒙特卡洛方法的题目 1 (转载)一个很简单的面试问题
job opportunities in Shenzhen[合集] 请教一个简单的问题
深圳量化投资工作机会[合集] 请教一个概率问题
怎么用时间序列来计算两支股票的covariance?请教一道概率题。
相关话题的讨论汇总
话题: 序列话题: 量化话题: 关系话题: 位置