由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 请教一个facebook的面试题
相关主题
问一个 feature 相关性问题问一下python 或者是 R 里面 gradient boosting model 的问题
请教一道面试题~~大家电话面试都怎么准备的啊
请问这样的数据应该用什么样的模型适合。Machine Learning硕士求推荐
请教如何求解综合指数自己做了一个data science相关的网站
从apply句型的潜在危险看R语言的俚语风格 (转载)maximal information coefficient 问题
非csee的engineer做machine learning engineer,办身份会有问题吗求解一个水塘抽样题 (转载)
correlation coefficient (转载)统计杂志专刊征稿
Association 的应用请教一道面试题:如何通过上一年度各州以及各CBSA的销售数据来(转载)
相关话题的讨论汇总
话题: 抽烟话题: 血压话题: 面试题话题: 可能话题: 相关性
进入DataSciences版参与讨论
1 (共1页)
w*****h
发帖数: 423
1
比如在一个zipcode进行人口抽样,调查高血压和各种feature之间的关系
最后得出抽烟的co-efficent是一个负值,也就是说得出抽烟会使得血压下降,这个肯
定是不符合医学知识的,请指出为什么。
我说抽样样本有bias,面试官好像不大满意。
l******n
发帖数: 648
2
coefficient negative does not mean 抽烟会使得血压下降

【在 w*****h 的大作中提到】
: 比如在一个zipcode进行人口抽样,调查高血压和各种feature之间的关系
: 最后得出抽烟的co-efficent是一个负值,也就是说得出抽烟会使得血压下降,这个肯
: 定是不符合医学知识的,请指出为什么。
: 我说抽样样本有bias,面试官好像不大满意。

f*****s
发帖数: 84
3
多元回归中如果有自变量之间有强烈的线性关系的话,自变量前的系数并不能说明因变
量和自变量之间的关系,删除其中的一个自变量,其相关自变量前的系数可能会发生正
负号的变化。
w*****h
发帖数: 423
4
好像有点明白了,多谢

【在 f*****s 的大作中提到】
: 多元回归中如果有自变量之间有强烈的线性关系的话,自变量前的系数并不能说明因变
: 量和自变量之间的关系,删除其中的一个自变量,其相关自变量前的系数可能会发生正
: 负号的变化。

c******g
发帖数: 238
5
首先得先证明,吸烟和血压有相关性。而且前面大师说的也很好。相关性分析不能等价
于因果关系。否则就会有很多乱七八糟的结论出来。本人嘴贱闲不住回一个,有点儿事
后诸葛亮了。但是是否有相关性,相关性与因果性都是很有趣的topic,对于time
series来讲的话可以看看这个,当然有点儿扯远了。
https://en.wikipedia.org/wiki/Granger_causality
z**********e
发帖数: 91
6
比如说抽烟的人可有可能得相关疾病,然后服用某种药物导致血压降低。如果你的
feature里有是否服用相关药物的信息,可以看一下和吸烟与否的相关性。。
T*****u
发帖数: 7103
7
很多可能吧,可能是原因,也可能是结果,也可能都是其他问题的结果,也可能是采样
的偏颇,也可能就是凑巧。比如说
1。抽烟确实放松身心,使得血压下降
2。抽烟的人都血压高,吃了降压药
3。不抽烟的人都喝咖啡,血压高
4。抽烟血压高的都死了,剩下的都是基因好百毒不侵的
5。容易血压高的人都听医生的话,不抽烟
c*******7
发帖数: 2506
8
this hits the point

【在 f*****s 的大作中提到】
: 多元回归中如果有自变量之间有强烈的线性关系的话,自变量前的系数并不能说明因变
: 量和自变量之间的关系,删除其中的一个自变量,其相关自变量前的系数可能会发生正
: 负号的变化。

a******n
发帖数: 11246
9
两个主要问题。其实这也是任何analysis里最容易被人们误用的。
1: co-variance。假如使用一个multi variable model做出来的,如果有另外几个变量
和 is_抽烟
强烈相关(比如is_喝酒,is_嗑药),那coefficient就可能没法正确代表dependent
variable和is_抽烟的关系;
2: a correlation does NOT mean causal relationship。意思就是说,仅仅从A和B相
关,是无法推断出A引起B,还是B引起A的。具体到这个例子,你无法从结果说明 抽烟
会使血压下降,还是 血压低才能让你可以抽烟。很多谬论都是这样来的。比如有实验
说明有钱和身高正相关,于是得出结论,有钱可以让你长高。给你1百万,你能多长高
一些么?
最后,既然interviewee提到了zipcode,那肯定是有道理的啦。同一个zip抽取的人,
可能profile会非常集中。比如都是不学好的年轻人(抽烟),和非常养生的老年人。这
种情况就会出现抽烟的人很少高血压(因为年轻),和不抽烟的但是高血压(年龄大了
)。。。

【在 w*****h 的大作中提到】
: 比如在一个zipcode进行人口抽样,调查高血压和各种feature之间的关系
: 最后得出抽烟的co-efficent是一个负值,也就是说得出抽烟会使得血压下降,这个肯
: 定是不符合医学知识的,请指出为什么。
: 我说抽样样本有bias,面试官好像不大满意。

b****y
发帖数: 169
10
这个解释的好!
相关主题
非csee的engineer做machine learning engineer,办身份会有问题吗问一下python 或者是 R 里面 gradient boosting model 的问题
correlation coefficient (转载)大家电话面试都怎么准备的啊
Association 的应用Machine Learning硕士求推荐
进入DataSciences版参与讨论
w*****h
发帖数: 423
11
比如在一个zipcode进行人口抽样,调查高血压和各种feature之间的关系
最后得出抽烟的co-efficent是一个负值,也就是说得出抽烟会使得血压下降,这个肯
定是不符合医学知识的,请指出为什么。
我说抽样样本有bias,面试官好像不大满意。
l******n
发帖数: 648
12
coefficient negative does not mean 抽烟会使得血压下降

【在 w*****h 的大作中提到】
: 比如在一个zipcode进行人口抽样,调查高血压和各种feature之间的关系
: 最后得出抽烟的co-efficent是一个负值,也就是说得出抽烟会使得血压下降,这个肯
: 定是不符合医学知识的,请指出为什么。
: 我说抽样样本有bias,面试官好像不大满意。

f*****s
发帖数: 84
13
多元回归中如果有自变量之间有强烈的线性关系的话,自变量前的系数并不能说明因变
量和自变量之间的关系,删除其中的一个自变量,其相关自变量前的系数可能会发生正
负号的变化。
w*****h
发帖数: 423
14
好像有点明白了,多谢

【在 f*****s 的大作中提到】
: 多元回归中如果有自变量之间有强烈的线性关系的话,自变量前的系数并不能说明因变
: 量和自变量之间的关系,删除其中的一个自变量,其相关自变量前的系数可能会发生正
: 负号的变化。

c******g
发帖数: 238
15
首先得先证明,吸烟和血压有相关性。而且前面大师说的也很好。相关性分析不能等价
于因果关系。否则就会有很多乱七八糟的结论出来。本人嘴贱闲不住回一个,有点儿事
后诸葛亮了。但是是否有相关性,相关性与因果性都是很有趣的topic,对于time
series来讲的话可以看看这个,当然有点儿扯远了。
https://en.wikipedia.org/wiki/Granger_causality
z**********e
发帖数: 91
16
比如说抽烟的人可有可能得相关疾病,然后服用某种药物导致血压降低。如果你的
feature里有是否服用相关药物的信息,可以看一下和吸烟与否的相关性。。
T*****u
发帖数: 7103
17
很多可能吧,可能是原因,也可能是结果,也可能都是其他问题的结果,也可能是采样
的偏颇,也可能就是凑巧。比如说
1。抽烟确实放松身心,使得血压下降
2。抽烟的人都血压高,吃了降压药
3。不抽烟的人都喝咖啡,血压高
4。抽烟血压高的都死了,剩下的都是基因好百毒不侵的
5。容易血压高的人都听医生的话,不抽烟
c*******7
发帖数: 2506
18
this hits the point

【在 f*****s 的大作中提到】
: 多元回归中如果有自变量之间有强烈的线性关系的话,自变量前的系数并不能说明因变
: 量和自变量之间的关系,删除其中的一个自变量,其相关自变量前的系数可能会发生正
: 负号的变化。

a******n
发帖数: 11246
19
两个主要问题。其实这也是任何analysis里最容易被人们误用的。
1: co-variance。假如使用一个multi variable model做出来的,如果有另外几个变量
和 is_抽烟
强烈相关(比如is_喝酒,is_嗑药),那coefficient就可能没法正确代表dependent
variable和is_抽烟的关系;
2: a correlation does NOT mean causal relationship。意思就是说,仅仅从A和B相
关,是无法推断出A引起B,还是B引起A的。具体到这个例子,你无法从结果说明 抽烟
会使血压下降,还是 血压低才能让你可以抽烟。很多谬论都是这样来的。比如有实验
说明有钱和身高正相关,于是得出结论,有钱可以让你长高。给你1百万,你能多长高
一些么?
最后,既然interviewee提到了zipcode,那肯定是有道理的啦。同一个zip抽取的人,
可能profile会非常集中。比如都是不学好的年轻人(抽烟),和非常养生的老年人。这
种情况就会出现抽烟的人很少高血压(因为年轻),和不抽烟的但是高血压(年龄大了
)。。。

【在 w*****h 的大作中提到】
: 比如在一个zipcode进行人口抽样,调查高血压和各种feature之间的关系
: 最后得出抽烟的co-efficent是一个负值,也就是说得出抽烟会使得血压下降,这个肯
: 定是不符合医学知识的,请指出为什么。
: 我说抽样样本有bias,面试官好像不大满意。

b****y
发帖数: 169
20
这个解释的好!
P***n
发帖数: 174
21
这个解释和前面那个都要点赞

【在 a******n 的大作中提到】
: 两个主要问题。其实这也是任何analysis里最容易被人们误用的。
: 1: co-variance。假如使用一个multi variable model做出来的,如果有另外几个变量
: 和 is_抽烟
: 强烈相关(比如is_喝酒,is_嗑药),那coefficient就可能没法正确代表dependent
: variable和is_抽烟的关系;
: 2: a correlation does NOT mean causal relationship。意思就是说,仅仅从A和B相
: 关,是无法推断出A引起B,还是B引起A的。具体到这个例子,你无法从结果说明 抽烟
: 会使血压下降,还是 血压低才能让你可以抽烟。很多谬论都是这样来的。比如有实验
: 说明有钱和身高正相关,于是得出结论,有钱可以让你长高。给你1百万,你能多长高
: 一些么?

1 (共1页)
进入DataSciences版参与讨论
相关主题
请教一道面试题:如何通过上一年度各州以及各CBSA的销售数据来(转载)从apply句型的潜在危险看R语言的俚语风格 (转载)
一道面试题,向本版求教一下。非csee的engineer做machine learning engineer,办身份会有问题吗
一个 senior data scientist 的面试题。correlation coefficient (转载)
问一道面试题Association 的应用
问一个 feature 相关性问题问一下python 或者是 R 里面 gradient boosting model 的问题
请教一道面试题~~大家电话面试都怎么准备的啊
请问这样的数据应该用什么样的模型适合。Machine Learning硕士求推荐
请教如何求解综合指数自己做了一个data science相关的网站
相关话题的讨论汇总
话题: 抽烟话题: 血压话题: 面试题话题: 可能话题: 相关性