C***i 发帖数: 486 | 1 一个project 中的一个小环节,有个问题向各位高人请教下。问题抽象出来是,客户找
到一些历史数据 (数据源=20)。因为是历史数据,而且报告地点比较离散,数据质量
很差。具体来讲,数据的样本不同,观测条件也不一致。。。 大概看起来如下:
Study 1: # of obs 100, [1,2,3,...., 100], location A, sample condition I,
etc...
Study 2: # of obs 10, [5, 7, 9,....], location B, sample condition I, etc...
Study 3: # of obs 50, [20, 25, 30, 35, ...], , location C, sample condition
II, etc...
客户想把这些数据都pool 在一起 fit 一个distribution. 我认为因为不同study, 样
本数量不同,不能简单的混在一起。因为一定要给出一个dist., 我的想法是:
1. 根据现有的conditions, merge 类似的数据,比如合并 在同一个地点,同一种观测
条件下,不同年代的观测值。这样可以把不同的数据源 减少到12个左右;
2. fit 12 个 distributions
不过这样一来得到的是 conditional dist. 不知道各位有什么建议。。。先谢谢了! | s****h 发帖数: 3979 | 2 这个“想把这些数据都pool 在一起 fit 一个distribution”实在是太扯了,只能用
mixed model.
瞎说一下:
可以假设不同数据源的data都是相同类型的distribution,不同的只是参数。
参数可以用mean,std啥的来估计。
主要问题是找分布类型。
每个数据源的数据,你可以试试fit distribution。找出几种fit得比较好得分布做候
选。
对于每种后选分布,根据参数来fit所有数据源,看看那个最好。
最后,如果相同地点,相同年代的数据参数类似,那就更好了,可以justify你这个方
法。 | C***i 发帖数: 486 | 3
谢谢回复。看了一下数据的分布,跨度比较大,但基本上算是normal dist., 不过这
个数据采集来源于多个国家,实在太分散 (见下图)。最后决定从几个 datasets 里
bootstrap
出一个算了,当然是假设每个数据源都给予同样比重。 请问这个方法可行么?
【在 s****h 的大作中提到】 : 这个“想把这些数据都pool 在一起 fit 一个distribution”实在是太扯了,只能用 : mixed model. : 瞎说一下: : 可以假设不同数据源的data都是相同类型的distribution,不同的只是参数。 : 参数可以用mean,std啥的来估计。 : 主要问题是找分布类型。 : 每个数据源的数据,你可以试试fit distribution。找出几种fit得比较好得分布做候 : 选。 : 对于每种后选分布,根据参数来fit所有数据源,看看那个最好。 : 最后,如果相同地点,相同年代的数据参数类似,那就更好了,可以justify你这个方
| T*****u 发帖数: 7103 | 4 我觉着一个重要的问题是他要用这个distribution做什么,然后才能justify怎么做。 | s*********h 发帖数: 6288 | 5 client wants, client gets. :P
【在 s****h 的大作中提到】 : 这个“想把这些数据都pool 在一起 fit 一个distribution”实在是太扯了,只能用 : mixed model. : 瞎说一下: : 可以假设不同数据源的data都是相同类型的distribution,不同的只是参数。 : 参数可以用mean,std啥的来估计。 : 主要问题是找分布类型。 : 每个数据源的数据,你可以试试fit distribution。找出几种fit得比较好得分布做候 : 选。 : 对于每种后选分布,根据参数来fit所有数据源,看看那个最好。 : 最后,如果相同地点,相同年代的数据参数类似,那就更好了,可以justify你这个方
|
|