w*****h 发帖数: 423 | 1 比如在一个zipcode进行人口抽样,调查高血压和各种feature之间的关系
最后得出抽烟的co-efficent是一个负值,也就是说得出抽烟会使得血压下降,这个肯
定是不符合医学知识的,请指出为什么。
我说抽样样本有bias,面试官好像不大满意。 |
l******n 发帖数: 648 | 2 coefficient negative does not mean 抽烟会使得血压下降
【在 w*****h 的大作中提到】 : 比如在一个zipcode进行人口抽样,调查高血压和各种feature之间的关系 : 最后得出抽烟的co-efficent是一个负值,也就是说得出抽烟会使得血压下降,这个肯 : 定是不符合医学知识的,请指出为什么。 : 我说抽样样本有bias,面试官好像不大满意。
|
f*****s 发帖数: 84 | 3 多元回归中如果有自变量之间有强烈的线性关系的话,自变量前的系数并不能说明因变
量和自变量之间的关系,删除其中的一个自变量,其相关自变量前的系数可能会发生正
负号的变化。 |
w*****h 发帖数: 423 | 4 好像有点明白了,多谢
【在 f*****s 的大作中提到】 : 多元回归中如果有自变量之间有强烈的线性关系的话,自变量前的系数并不能说明因变 : 量和自变量之间的关系,删除其中的一个自变量,其相关自变量前的系数可能会发生正 : 负号的变化。
|
c******g 发帖数: 238 | 5 首先得先证明,吸烟和血压有相关性。而且前面大师说的也很好。相关性分析不能等价
于因果关系。否则就会有很多乱七八糟的结论出来。本人嘴贱闲不住回一个,有点儿事
后诸葛亮了。但是是否有相关性,相关性与因果性都是很有趣的topic,对于time
series来讲的话可以看看这个,当然有点儿扯远了。
https://en.wikipedia.org/wiki/Granger_causality |
z**********e 发帖数: 91 | 6 比如说抽烟的人可有可能得相关疾病,然后服用某种药物导致血压降低。如果你的
feature里有是否服用相关药物的信息,可以看一下和吸烟与否的相关性。。 |
T*****u 发帖数: 7103 | 7 很多可能吧,可能是原因,也可能是结果,也可能都是其他问题的结果,也可能是采样
的偏颇,也可能就是凑巧。比如说
1。抽烟确实放松身心,使得血压下降
2。抽烟的人都血压高,吃了降压药
3。不抽烟的人都喝咖啡,血压高
4。抽烟血压高的都死了,剩下的都是基因好百毒不侵的
5。容易血压高的人都听医生的话,不抽烟 |
c*******7 发帖数: 2506 | 8 this hits the point
【在 f*****s 的大作中提到】 : 多元回归中如果有自变量之间有强烈的线性关系的话,自变量前的系数并不能说明因变 : 量和自变量之间的关系,删除其中的一个自变量,其相关自变量前的系数可能会发生正 : 负号的变化。
|
a******n 发帖数: 11246 | 9 两个主要问题。其实这也是任何analysis里最容易被人们误用的。
1: co-variance。假如使用一个multi variable model做出来的,如果有另外几个变量
和 is_抽烟
强烈相关(比如is_喝酒,is_嗑药),那coefficient就可能没法正确代表dependent
variable和is_抽烟的关系;
2: a correlation does NOT mean causal relationship。意思就是说,仅仅从A和B相
关,是无法推断出A引起B,还是B引起A的。具体到这个例子,你无法从结果说明 抽烟
会使血压下降,还是 血压低才能让你可以抽烟。很多谬论都是这样来的。比如有实验
说明有钱和身高正相关,于是得出结论,有钱可以让你长高。给你1百万,你能多长高
一些么?
最后,既然interviewee提到了zipcode,那肯定是有道理的啦。同一个zip抽取的人,
可能profile会非常集中。比如都是不学好的年轻人(抽烟),和非常养生的老年人。这
种情况就会出现抽烟的人很少高血压(因为年轻),和不抽烟的但是高血压(年龄大了
)。。。
【在 w*****h 的大作中提到】 : 比如在一个zipcode进行人口抽样,调查高血压和各种feature之间的关系 : 最后得出抽烟的co-efficent是一个负值,也就是说得出抽烟会使得血压下降,这个肯 : 定是不符合医学知识的,请指出为什么。 : 我说抽样样本有bias,面试官好像不大满意。
|
b****y 发帖数: 169 | |
|
|
w*****h 发帖数: 423 | 11 比如在一个zipcode进行人口抽样,调查高血压和各种feature之间的关系
最后得出抽烟的co-efficent是一个负值,也就是说得出抽烟会使得血压下降,这个肯
定是不符合医学知识的,请指出为什么。
我说抽样样本有bias,面试官好像不大满意。 |
l******n 发帖数: 648 | 12 coefficient negative does not mean 抽烟会使得血压下降
【在 w*****h 的大作中提到】 : 比如在一个zipcode进行人口抽样,调查高血压和各种feature之间的关系 : 最后得出抽烟的co-efficent是一个负值,也就是说得出抽烟会使得血压下降,这个肯 : 定是不符合医学知识的,请指出为什么。 : 我说抽样样本有bias,面试官好像不大满意。
|
f*****s 发帖数: 84 | 13 多元回归中如果有自变量之间有强烈的线性关系的话,自变量前的系数并不能说明因变
量和自变量之间的关系,删除其中的一个自变量,其相关自变量前的系数可能会发生正
负号的变化。 |
w*****h 发帖数: 423 | 14 好像有点明白了,多谢
【在 f*****s 的大作中提到】 : 多元回归中如果有自变量之间有强烈的线性关系的话,自变量前的系数并不能说明因变 : 量和自变量之间的关系,删除其中的一个自变量,其相关自变量前的系数可能会发生正 : 负号的变化。
|
c******g 发帖数: 238 | 15 首先得先证明,吸烟和血压有相关性。而且前面大师说的也很好。相关性分析不能等价
于因果关系。否则就会有很多乱七八糟的结论出来。本人嘴贱闲不住回一个,有点儿事
后诸葛亮了。但是是否有相关性,相关性与因果性都是很有趣的topic,对于time
series来讲的话可以看看这个,当然有点儿扯远了。
https://en.wikipedia.org/wiki/Granger_causality |
z**********e 发帖数: 91 | 16 比如说抽烟的人可有可能得相关疾病,然后服用某种药物导致血压降低。如果你的
feature里有是否服用相关药物的信息,可以看一下和吸烟与否的相关性。。 |
T*****u 发帖数: 7103 | 17 很多可能吧,可能是原因,也可能是结果,也可能都是其他问题的结果,也可能是采样
的偏颇,也可能就是凑巧。比如说
1。抽烟确实放松身心,使得血压下降
2。抽烟的人都血压高,吃了降压药
3。不抽烟的人都喝咖啡,血压高
4。抽烟血压高的都死了,剩下的都是基因好百毒不侵的
5。容易血压高的人都听医生的话,不抽烟 |
c*******7 发帖数: 2506 | 18 this hits the point
【在 f*****s 的大作中提到】 : 多元回归中如果有自变量之间有强烈的线性关系的话,自变量前的系数并不能说明因变 : 量和自变量之间的关系,删除其中的一个自变量,其相关自变量前的系数可能会发生正 : 负号的变化。
|
a******n 发帖数: 11246 | 19 两个主要问题。其实这也是任何analysis里最容易被人们误用的。
1: co-variance。假如使用一个multi variable model做出来的,如果有另外几个变量
和 is_抽烟
强烈相关(比如is_喝酒,is_嗑药),那coefficient就可能没法正确代表dependent
variable和is_抽烟的关系;
2: a correlation does NOT mean causal relationship。意思就是说,仅仅从A和B相
关,是无法推断出A引起B,还是B引起A的。具体到这个例子,你无法从结果说明 抽烟
会使血压下降,还是 血压低才能让你可以抽烟。很多谬论都是这样来的。比如有实验
说明有钱和身高正相关,于是得出结论,有钱可以让你长高。给你1百万,你能多长高
一些么?
最后,既然interviewee提到了zipcode,那肯定是有道理的啦。同一个zip抽取的人,
可能profile会非常集中。比如都是不学好的年轻人(抽烟),和非常养生的老年人。这
种情况就会出现抽烟的人很少高血压(因为年轻),和不抽烟的但是高血压(年龄大了
)。。。
【在 w*****h 的大作中提到】 : 比如在一个zipcode进行人口抽样,调查高血压和各种feature之间的关系 : 最后得出抽烟的co-efficent是一个负值,也就是说得出抽烟会使得血压下降,这个肯 : 定是不符合医学知识的,请指出为什么。 : 我说抽样样本有bias,面试官好像不大满意。
|
b****y 发帖数: 169 | |
P***n 发帖数: 174 | 21 这个解释和前面那个都要点赞
【在 a******n 的大作中提到】 : 两个主要问题。其实这也是任何analysis里最容易被人们误用的。 : 1: co-variance。假如使用一个multi variable model做出来的,如果有另外几个变量 : 和 is_抽烟 : 强烈相关(比如is_喝酒,is_嗑药),那coefficient就可能没法正确代表dependent : variable和is_抽烟的关系; : 2: a correlation does NOT mean causal relationship。意思就是说,仅仅从A和B相 : 关,是无法推断出A引起B,还是B引起A的。具体到这个例子,你无法从结果说明 抽烟 : 会使血压下降,还是 血压低才能让你可以抽烟。很多谬论都是这样来的。比如有实验 : 说明有钱和身高正相关,于是得出结论,有钱可以让你长高。给你1百万,你能多长高 : 一些么?
|