有没有所谓data science/data mining专业毕业的，对与传统统计专业的比较有何见解 - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 有没有所谓data science/data mining专业毕业的，对与传统统计专业的比较有何见解

相关主题
● 一朋友问下，统计硕士毕业，想读个CS硕士，要什么方向？	● 请问目前统计最流行的是什么
● 问一下， data mining是具体做什么工作？	● SAS 公司职位
● data mining 的工作怎么样？和统计比	● 统计菜鸟求统计分析方法
● data mining 属于统计还是计算机系？	● 没有统计背景也可以用EMINER吗?
● 文科学统计master，有学校肯收么？	● 统计学习/数据挖掘 or 生统，这是个问题
● [合集] 文科学统计master，有学校肯收么？	● 来得及换读统计吗？
● 一个统计学家看“陈光诚事件” (转载)	● [合集] 哪个方向更统计一点？
● functional data/fMRI 这个方向如何？	● bond price data clearn (转载)

相关话题的讨论汇总
话题: data话题: 统计话题: 模型话题: science话题: 传统

进入Statistics版参与讨论

1

(共1页)

m*********g 发帖数: 70	1 一个team，我做传统统计模型，另外一个data science毕业的转作他的模型，感觉和传统统计很不同，但是他用的东西除了他自己之外没人懂。但是据说这些是时下比较 popular或trendy的东西。都是做数据分析的，有没有人有什么见解比较一下这两者的不同或互通性？
c***z 发帖数: 6348	2 why not ask him, it is a good chance to learn something new
g****l 发帖数: 213	3 正在学data analytics，很有兴趣跟你聊聊。目前的感觉是，跟传统统计相比，da更注重business sense, 比如选variable 或是界定significant cutoff line, 不是大于0. 05就都是garbage的。你的同事具体用了哪些方法让你觉得跟传统统计不一样?
d********t 发帖数: 837	4 It would be bad statistics to simply consider anything greater than 0.05 as garbage too. 0. 【在 g****l 的大作中提到】 : 正在学data analytics，很有兴趣跟你聊聊。目前的感觉是，跟传统统计相比，da更注 : 重business sense, 比如选variable 或是界定significant cutoff line, 不是大于0. : 05就都是garbage的。你的同事具体用了哪些方法让你觉得跟传统统计不一样?
k*z 发帖数: 4704	5 CS的data Science不是传统的统计。而是有点和逻辑判断一样，或者说和数据结构里的 2Y树一样。注重的不是模型，而是结果。不关注统计的理论和过程而是注重于实用。把你的所有的数据想成一个流，你要的收入或者数据结果是你流的终点，中间各种统计手段是帮助你分流的。整个流的执行效率要高，不能复杂到要把流堵住截断，如果必须参考历史数据，需要预测，就好比在流上建了大坝，把历史流都记录下来，实时更新模型的参数然后放回流里给新数据用。
n*******k 发帖数: 100	6 http://cds.nyu.edu/academics/ms-in-data-science/ http://cds.nyu.edu/academics/ms-in-data-science/curriculum/requ http://www.1point3acres.com/nyu-data-science-master-admission-s
h*******o 发帖数: 145	7 This could be helpful: http://stats.stackexchange.com/questions/6/the-two-cultures-sta
g****l 发帖数: 213	8 这个主要是针对big data 的处理，因为数据量大到无法存储所以用统计的方式截取 sample 【在 k*z 的大作中提到】 : CS的data Science不是传统的统计。而是有点和逻辑判断一样，或者说和数据结构里的 : 2Y树一样。注重的不是模型，而是结果。不关注统计的理论和过程而是注重于实用。 : 把你的所有的数据想成一个流，你要的收入或者数据结果是你流的终点，中间各种统 : 计手段是帮助你分流的。整个流的执行效率要高，不能复杂到要把流堵住截断，如果 : 必须 : 参考历史数据，需要预测，就好比在流上建了大坝，把历史流都记录下来，实时更 : 新模型的参数然后放回流里给新数据用。
f*******n 发帖数: 2665	9 统计同样要business sense 【在 g****l 的大作中提到】 : 正在学data analytics，很有兴趣跟你聊聊。目前的感觉是，跟传统统计相比，da更注 : 重business sense, 比如选variable 或是界定significant cutoff line, 不是大于0. : 05就都是garbage的。你的同事具体用了哪些方法让你觉得跟传统统计不一样?
m*********g 发帖数: 70	10 感谢各位的留言。还是有些启发。我的感觉是传统统计比是有数理基础，我见过理论统计学家连计算机都没碰过的。从这一点上靠近经济学模型多一些。 data science似乎更多的基于cs和engineering的一些过程，用optimization的多一些。虽说两种都需要business sense,但是传统统计模型需要一些比较明确的假设，也就是 data model需要的东西，一般情况结果会支持或者反对最初的假设，通常需要建立 causal relationship. 但是data science 的模型可以没有这些东西，结果是主要的。以我做的predictive model来说，我的模型中变量选入需要有临床依据，结果出来需要和临床知识做个对比。但是data scientist做的东西只需要解释input和output,不用解释how and why,有点black box的感觉。我的理解是有些问题上明显是传统统计的应用靠铺一些，比如诸类社会科学研究和商业界基于知识背景的研究。但是某些模型，金融中的一部分问题，自然科学类，比如预测大气某种成分含量等等，data science的模型应该会精准些。uncertainty任何模型都不会handle的很好，这个没办法的。 0.05这个真得不是绝对的，比如我的模型全用 0.01，而且现在越来越多人对 significance这个东西有意见。话说我team里这位data science我也试图交流过，但是他是刚毕业的博士生，人比较 assertive的这种，再直白一点就是对自己不是完全懂得东西也说得很肯定。一个对统计一知半解的人来criticize 我的东西，这个我自然既不信服也不舒服，尤其有一次交流其居然说data mining covers statistics,这可是真真把我给piss off了。呵呵。我差不多想对他说，你先去读一两门正统统计科，再来跟我说，data mining是不是 cover statistics. 后来估计manager在我们两个review的时候都提出过希望两人可以 syn up多一些，所以其人后来的态度好似是谦卑了点。我呢，也希望额外可以自学一点，好以他熟悉一些的语言来和他沟通，想来这样效果可以好点。 0. 【在 g****l 的大作中提到】 : 正在学data analytics，很有兴趣跟你聊聊。目前的感觉是，跟传统统计相比，da更注 : 重business sense, 比如选variable 或是界定significant cutoff line, 不是大于0. : 05就都是garbage的。你的同事具体用了哪些方法让你觉得跟传统统计不一样?
k*z 发帖数: 4704	11 hehe,说到点子上了，统计学家说，给我一个东城区，我给你预测北京，给我一个北京我能给你预测全中国。给我一个中国，我给你预测全世界 CS的数据挖掘说，给我一个世界我给你总结中国，给我一个中国我可以告诉你北京，给我一个北京我可以告诉你东城区。

1

(共1页)

进入Statistics版参与讨论

相关主题
● bond price data clearn (转载)	● 文科学统计master，有学校肯收么？
● 最近一期的ECONOMIST说	● [合集] 文科学统计master，有学校肯收么？
● 文科背景转CS还是统计？	● 一个统计学家看“陈光诚事件” (转载)
● 银行、信用卡公司需要什么技能？	● functional data/fMRI 这个方向如何？
● 一朋友问下，统计硕士毕业，想读个CS硕士，要什么方向？	● 请问目前统计最流行的是什么
● 问一下， data mining是具体做什么工作？	● SAS 公司职位
● data mining 的工作怎么样？和统计比	● 统计菜鸟求统计分析方法
● data mining 属于统计还是计算机系？	● 没有统计背景也可以用EMINER吗?

相关话题的讨论汇总
话题: data话题: 统计话题: 模型话题: science话题: 传统

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)