m*********g 发帖数: 70 | 1 一个team,我做传统统计模型,另外一个data science毕业的转作他的模型,感觉和传
统统计很不同,但是他用的东西除了他自己之外没人懂。但是据说这些是时下比较
popular或trendy的东西。
都是做数据分析的,有没有人有什么见解比较一下这两者的不同或互通性? |
c***z 发帖数: 6348 | 2 why not ask him, it is a good chance to learn something new |
g****l 发帖数: 213 | 3 正在学data analytics,很有兴趣跟你聊聊。目前的感觉是,跟传统统计相比,da更注
重business sense, 比如选variable 或是界定significant cutoff line, 不是大于0.
05就都是garbage的。你的同事具体用了哪些方法让你觉得跟传统统计不一样? |
d********t 发帖数: 837 | 4 It would be bad statistics to simply consider anything greater than 0.05 as
garbage
too.
0.
【在 g****l 的大作中提到】 : 正在学data analytics,很有兴趣跟你聊聊。目前的感觉是,跟传统统计相比,da更注 : 重business sense, 比如选variable 或是界定significant cutoff line, 不是大于0. : 05就都是garbage的。你的同事具体用了哪些方法让你觉得跟传统统计不一样?
|
k*z 发帖数: 4704 | 5 CS的data Science不是传统的统计。而是有点和逻辑判断一样,或者说和数据结构里的
2Y树一样。注重的不是模型,而是结果。不关注统计的理论和过程而是注重于实用。
把你的所有的数据想成一个流, 你要的收入或者数据结果是你流的终点,中间各种统
计手段是帮助你分流的。 整个流的执行效率要高,不能复杂到要把流堵住截断,如果
必须
参考历史数据,需要预测,就好比在流上建了大坝,把历史流都记录下来,实时更
新模型的参数然后放回流里给新数据用。 |
n*******k 发帖数: 100 | |
h*******o 发帖数: 145 | |
g****l 发帖数: 213 | 8 这个主要是针对big data 的处理,因为数据量大到无法存储所以用统计的方式截取
sample
【在 k*z 的大作中提到】 : CS的data Science不是传统的统计。而是有点和逻辑判断一样,或者说和数据结构里的 : 2Y树一样。注重的不是模型,而是结果。不关注统计的理论和过程而是注重于实用。 : 把你的所有的数据想成一个流, 你要的收入或者数据结果是你流的终点,中间各种统 : 计手段是帮助你分流的。 整个流的执行效率要高,不能复杂到要把流堵住截断,如果 : 必须 : 参考历史数据,需要预测,就好比在流上建了大坝,把历史流都记录下来,实时更 : 新模型的参数然后放回流里给新数据用。
|
f*******n 发帖数: 2665 | 9 统计同样要business sense
【在 g****l 的大作中提到】 : 正在学data analytics,很有兴趣跟你聊聊。目前的感觉是,跟传统统计相比,da更注 : 重business sense, 比如选variable 或是界定significant cutoff line, 不是大于0. : 05就都是garbage的。你的同事具体用了哪些方法让你觉得跟传统统计不一样?
|
m*********g 发帖数: 70 | 10 感谢各位的留言。还是有些启发。
我的感觉是传统统计比是有数理基础,我见过理论统计学家连计算机都没碰过的。从这
一点上靠近经济学模型多一些。
data science似乎更多的基于cs和engineering的一些过程,用optimization的多一些。
虽说两种都需要business sense,但是传统统计模型需要一些比较明确的假设,也就是
data model需要的东西,一般情况结果会支持或者反对最初的假设,通常需要建立
causal relationship. 但是data science 的模型可以没有这些东西,结果是主要的。
以我做的predictive model来说,我的模型中变量选入需要有临床依据,结果出来需要
和临床知识做个对比。但是data scientist做的东西只需要解释input和output,不用解
释how and why,有点black box的感觉。
我的理解是有些问题上明显是传统统计的应用靠铺一些,比如诸类社会科学研究和商业
界基于知识背景的研究。但是某些模型,金融中的一部分问题,自然科学类,比如预测
大气某种成分含量等等,data science的模型应该会精准些。uncertainty任何模型都
不会handle的很好,这个没办法的。
0.05这个真得不是绝对的,比如我的模型全用 0.01,而且现在越来越多人对
significance这个东西有意见。
话说我team里这位data science我也试图交流过,但是他是刚毕业的博士生,人比较
assertive的这种,再直白一点就是对自己不是完全懂得东西也说得很肯定。一个对统
计一知半解的人来criticize 我的东西,这个我自然既不信服也不舒服,尤其有一次交
流其居然说data mining covers statistics,这可是真真把我给piss off了。呵呵。我
差不多想对他说,你先去读一两门正统统计科,再来跟我说,data mining是不是
cover statistics. 后来估计manager在我们两个review的时候都提出过希望两人可以
syn up多一些,所以其人后来的态度好似是谦卑了点。我呢,也希望额外可以自学一点
,好以他熟悉一些的语言来和他沟通,想来这样效果可以好点。
0.
【在 g****l 的大作中提到】 : 正在学data analytics,很有兴趣跟你聊聊。目前的感觉是,跟传统统计相比,da更注 : 重business sense, 比如选variable 或是界定significant cutoff line, 不是大于0. : 05就都是garbage的。你的同事具体用了哪些方法让你觉得跟传统统计不一样?
|
k*z 发帖数: 4704 | 11 hehe,说到点子上了,
统计学家说,给我一个东城区,我给你预测北京,给我一个北京我能给你预测全中国。
给我一个中国,我给你预测全世界
CS的数据挖掘说,给我一个世界我给你总结中国,给我一个中国我可以告诉你北京,给
我一个北京我可以告诉你东城区。 |