c****t 发帖数: 19049 | 1 【 以下文字转载自 DataScience 俱乐部 】
发信人: casact (瞑觋), 信区: DataScience
标 题: Re: 请问大数据问题和以前的数据挖掘有什么区别?
发信站: BBS 未名空间站 (Sat Dec 14 18:13:25 2013, 美东)
10年前data mining是CS的人为了卖relational数据库搞出来的hype(因为之前是传统
文件search类型的“数据库”donimated);现在big data是CS的人为了卖另一种数据库
搞出来的另一个hype
不过data analysis嘛光辉长存 |
b*****o 发帖数: 715 | 2 我是一个历史爱好者,同时也是搞数据分析的,我经常会觉得这两个领域非常的神似。
Marc Bloch在他的名著《the historian's craft》里把历史研究分为三个步骤:
(1)历史的考证
(2)历史的分析
(3)历史的因果
对应数据分析,就是
(1)data validation
(2)data analysis
(3)data evaluation
其中最后一步是大老板们干的事情,就是基于分析结果给出主观的价值判断以及下一步
决策。这一
步其实在大数据时代几乎没有变化,大老板们的信息来源依旧是三张ppt。可能很多人
觉得大数据时代最大的变化是在data analysis这步:以前可以用R,现在必须用
Mapreduce,以前可以用sql,现在必须用NoSql,等等。但是,如果有完善的
infrastructure,其实写Mapreduce code并不比写R code(或者python)复杂多少。
我的感觉,最大的变化其实是第一步。现在所有的数据采集都是server自动完成log,
里面有大量无意义,不可懂的东西,以及各种spam。不把这些做清理,第二步data
analysis的结果就根本不可靠。而要做好data validation,你不但要对log的设计,同
时client side和server side的方方面面都比较了解才能做好。
【在 c****t 的大作中提到】 : 【 以下文字转载自 DataScience 俱乐部 】 : 发信人: casact (瞑觋), 信区: DataScience : 标 题: Re: 请问大数据问题和以前的数据挖掘有什么区别? : 发信站: BBS 未名空间站 (Sat Dec 14 18:13:25 2013, 美东) : 10年前data mining是CS的人为了卖relational数据库搞出来的hype(因为之前是传统 : 文件search类型的“数据库”donimated);现在big data是CS的人为了卖另一种数据库 : 搞出来的另一个hype : 不过data analysis嘛光辉长存
|
s********r 发帖数: 2308 | 3 现在所谓的大数据无非是hadoop把以前非常昂贵的在mainframe上跑的事情变得便宜可
用了。 |
s**********o 发帖数: 14359 | 4 数据挖掘并不一定挖掘大数据吧,大数据不只是RECORDS多,而且是那种BLOG之类的
COLUMN,传统的数据挖掘还是在海量数据的传统数据上,HISTORY比较多而已,当然有
了BLOG了
之后,数据挖据更有做头了,一本书做为一个RECORD的BLOG COLUMN,那么一百万数据
就是一
百万本书,慢慢挖掘吧 |
X******2 发帖数: 5859 | 5 历史可以看成是应用统计的一个分支。
人们不断收集证据(数据),然后做推断或是因果分析。
【在 b*****o 的大作中提到】 : 我是一个历史爱好者,同时也是搞数据分析的,我经常会觉得这两个领域非常的神似。 : Marc Bloch在他的名著《the historian's craft》里把历史研究分为三个步骤: : (1)历史的考证 : (2)历史的分析 : (3)历史的因果 : 对应数据分析,就是 : (1)data validation : (2)data analysis : (3)data evaluation : 其中最后一步是大老板们干的事情,就是基于分析结果给出主观的价值判断以及下一步
|
l****i 发帖数: 398 | 6 可以看看NIST下的定义
【在 X******2 的大作中提到】 : 历史可以看成是应用统计的一个分支。 : 人们不断收集证据(数据),然后做推断或是因果分析。
|
g****l 发帖数: 213 | 7 数据分析的最高境界是prescriptive analytics。
第一步, descriptive analytics, 所谓历史的考证与因果分析 deal with what
happened and why did it happen
第二步,predictive analytics, 所谓的由前及后,以今天的现状预测未来 deal with
questions regarding what will happen
第三步,prescriptive analytics, 所谓的未雨绸缪,对未来种种进行预测提供解决办
法,根据不断变化的现状随时改变策略,还包括评估每种预测从而选择最优方案。这个
才是大数据的真正用武之地。 |
B*****g 发帖数: 34098 | 8 ding
with
【在 g****l 的大作中提到】 : 数据分析的最高境界是prescriptive analytics。 : 第一步, descriptive analytics, 所谓历史的考证与因果分析 deal with what : happened and why did it happen : 第二步,predictive analytics, 所谓的由前及后,以今天的现状预测未来 deal with : questions regarding what will happen : 第三步,prescriptive analytics, 所谓的未雨绸缪,对未来种种进行预测提供解决办 : 法,根据不断变化的现状随时改变策略,还包括评估每种预测从而选择最优方案。这个 : 才是大数据的真正用武之地。
|
g******e 发帖数: 140 | 9 Any example on step 3
with
【在 g****l 的大作中提到】 : 数据分析的最高境界是prescriptive analytics。 : 第一步, descriptive analytics, 所谓历史的考证与因果分析 deal with what : happened and why did it happen : 第二步,predictive analytics, 所谓的由前及后,以今天的现状预测未来 deal with : questions regarding what will happen : 第三步,prescriptive analytics, 所谓的未雨绸缪,对未来种种进行预测提供解决办 : 法,根据不断变化的现状随时改变策略,还包括评估每种预测从而选择最优方案。这个 : 才是大数据的真正用武之地。
|
g****k 发帖数: 9 | 10 海量数据的概念早就有了,大数据只是个概念的炒作,和云计算一样(分布式计算也早
就有了)。不过能吸引这么关注,炒作也就有价值了。 |
|
|
G***n 发帖数: 877 | 11 大数据真正的卖点是hadoop一些free的可以在不远的将来取代Oracel的sql/noSql,试
想一下每年全球的大企业在数据库上要花多少钱,有了free的version后能剩下多少钱
干别的事情。 |
l******n 发帖数: 9344 | 12 cost在enterprise level的应用绝对是大头,还有hadoop的可靠性或者说分布式系统的
可靠性,纠错能力都是传统的数据库没法比的
【在 G***n 的大作中提到】 : 大数据真正的卖点是hadoop一些free的可以在不远的将来取代Oracel的sql/noSql,试 : 想一下每年全球的大企业在数据库上要花多少钱,有了free的version后能剩下多少钱 : 干别的事情。
|
y******u 发帖数: 804 | 13 大数据的定义不是一直追问“多大是大?”啊,而是大到传统的io、存储或计算都没法
上了,必须要用新开发出来的大数据方法,那就是大数据的问题域了。 |
w*********y 发帖数: 7895 | 14 你这3个步骤,就是科学家受的训练要做的事情啊。。。
当然很多时候,第一步是观察,确定收集数据的内容和方向。
但也有很多时候,也会先收集数据,先做数据描述,看看所以变量的变化,
再确定分析方向。。。
with
【在 g****l 的大作中提到】 : 数据分析的最高境界是prescriptive analytics。 : 第一步, descriptive analytics, 所谓历史的考证与因果分析 deal with what : happened and why did it happen : 第二步,predictive analytics, 所谓的由前及后,以今天的现状预测未来 deal with : questions regarding what will happen : 第三步,prescriptive analytics, 所谓的未雨绸缪,对未来种种进行预测提供解决办 : 法,根据不断变化的现状随时改变策略,还包括评估每种预测从而选择最优方案。这个 : 才是大数据的真正用武之地。
|
e*******n 发帖数: 872 | 15 我感觉大数据和传统数据的区别在于distributed和unstructured |
z****e 发帖数: 54598 | 16 re
【在 e*******n 的大作中提到】 : 我感觉大数据和传统数据的区别在于distributed和unstructured
|
z****e 发帖数: 54598 | 17 data mining最早是data warehousing
data warehousing是database的分离
读写分离,强调读,而非写,传统db强调写而非读
尤其是transaction,会占用大量的资源
如果读写无法分离的话,会导致数据抽取很消耗生产性能
所以提出了分离的概念,当时还没有nosql的说法
或者nosql本身就是一个退化了的东西
所以当时认为,所有的数据都应该是结构化的数据
db也的确存大量结构化的数据,所以data warehouse一度盛嚣尘上
不过如果对db有所了解的话就大概知道,db本身并不统一
各种db有自己的sql features,导致不同db之间很多接口不一样
所以当时搞分布式的搞出了hibernate来封装所有的db差异
db都不统一,data warehouse就更不统一了,所以最后这个东西也没有掀起太大的波澜
很快,有家公司叫google,有个大学叫stanford
stanford关于web search&text analysis的研究有一定年头了
最早统计的应用可以追溯到70年代,然后两个phd对web page的研究
做出了一定的成绩,尤其是发现了url的次数作为reference和排序的标准
然后就替代了yahoo,再然后yahoo根据google的论文模型,作出了java版的google系统
那就是hadoop,然后hadoop用了hdfs和hbase,然后有人提出了cap理论
cap理论是一个分布式理论,但是也可以用在数据存储的性能上
因为本来分布式就跟数据存储有着千丝万缕的联系,比如hibernate&db
再然后根据cap分别制作出了不同的persistence产品,比如cassandra,比如hbase
还有redis, couchdb这些,这些不同的产品很好滴填补了db在储存数据上的各种不足
而面对这些混乱结构的数据,如何挖掘出其中的联系
很自然而然地就想到了统计
所以分布式,数据存储,统计这几个学科都在适当的时间发现需要对方
然后一拍即合,就开始搞起来,也是一个历史的必然
严格说来应该是
并行计算(主机,hpc这些) -> 分布式计算(decentralized) -> cloud(recentralized)
数据库(structured) -> nosql(unstructured or semi structured)
数据挖掘(business intelligence) -> applied statistics(回归本源)
分别独立发展,最后融合 |
M*********9 发帖数: 15637 | 18 觉得step1 and 3比较有挑战性。
with
【在 g****l 的大作中提到】 : 数据分析的最高境界是prescriptive analytics。 : 第一步, descriptive analytics, 所谓历史的考证与因果分析 deal with what : happened and why did it happen : 第二步,predictive analytics, 所谓的由前及后,以今天的现状预测未来 deal with : questions regarding what will happen : 第三步,prescriptive analytics, 所谓的未雨绸缪,对未来种种进行预测提供解决办 : 法,根据不断变化的现状随时改变策略,还包括评估每种预测从而选择最优方案。这个 : 才是大数据的真正用武之地。
|
M*********9 发帖数: 15637 | 19 顺路问一下。 监控平台收集的数据除了能用来完善监控平台, 还能有点什么应用?
【在 M*********9 的大作中提到】 : 觉得step1 and 3比较有挑战性。 : : with
|
z****e 发帖数: 54598 | 20 对it有用,生产数据比如内存使用,硬盘使用
这些都有很重要的意义,不仅仅是监控,还有performance
东西越大,可以优化的空间也就越大
【在 M*********9 的大作中提到】 : 顺路问一下。 监控平台收集的数据除了能用来完善监控平台, 还能有点什么应用?
|
|
|
M*********9 发帖数: 15637 | 21 这是系统维护和优化? 那监控数据本身有可能有点什么附加值么?
【在 z****e 的大作中提到】 : 对it有用,生产数据比如内存使用,硬盘使用 : 这些都有很重要的意义,不仅仅是监控,还有performance : 东西越大,可以优化的空间也就越大
|
i**i 发帖数: 1500 | 22 这是在比较苹果和橘子
Big data = big + unstructured data. 解决存储什么的问题
Datamining = data --> information. 描述一个分析的过程
wiki:
Big data can also be defined as "Big data is a large volume unstructured
data which can not be handled by standard database management systems like
DBMS, RDBMS or ORDBMS". |
i**i 发帖数: 1500 | |
u***n 发帖数: 10554 | 24 Free一词亮了。
【在 G***n 的大作中提到】 : 大数据真正的卖点是hadoop一些free的可以在不远的将来取代Oracel的sql/noSql,试 : 想一下每年全球的大企业在数据库上要花多少钱,有了free的version后能剩下多少钱 : 干别的事情。
|
z****e 发帖数: 54598 | 25 cloud的话应该有一定附加值
【在 M*********9 的大作中提到】 : 这是系统维护和优化? 那监控数据本身有可能有点什么附加值么?
|
z****e 发帖数: 54598 | 26 Big data is like teenage sex: everyone talks about it, nobody really knows
how to do it, everyone thinks everyone else is doing it, so everyone claims
they are doing it...
【在 i**i 的大作中提到】 : 这是在比较苹果和橘子 : Big data = big + unstructured data. 解决存储什么的问题 : Datamining = data --> information. 描述一个分析的过程 : wiki: : Big data can also be defined as "Big data is a large volume unstructured : data which can not be handled by standard database management systems like : DBMS, RDBMS or ORDBMS".
|