由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - Re: 请问大数据问题和以前的数据挖掘有什么区别? (转载)
相关主题
DS对数据库需要了解多少?妹纸物理phd转data science求建议
阿里巴巴数据挖掘开赛:100万 (转载)Impala v Hive
DS工作还是要去美国找么大妈想找数据库方面的工作 是否需要证书 在哪里上培训班?
组建互联网公司数据团队请问大家有没有直接用java全程写mapreduce的程序的?
【求审稿机会】求机器学习,统计,优化,数据挖掘方面的审稿机刚知道有这个版。问一下nosql比sql好在哪里?
请教各位DS大拿如何学习Hadoop?
kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?请问学习NoSQL有什么好点的参考书?
Big data是下一个大坑吗data science Master, 美国哪个大学好?
相关话题的讨论汇总
话题: 数据话题: data话题: big话题: db话题: 数据挖掘
进入DataSciences版参与讨论
1 (共1页)
c****t
发帖数: 19049
1
【 以下文字转载自 DataScience 俱乐部 】
发信人: casact (瞑觋), 信区: DataScience
标 题: Re: 请问大数据问题和以前的数据挖掘有什么区别?
发信站: BBS 未名空间站 (Sat Dec 14 18:13:25 2013, 美东)
10年前data mining是CS的人为了卖relational数据库搞出来的hype(因为之前是传统
文件search类型的“数据库”donimated);现在big data是CS的人为了卖另一种数据库
搞出来的另一个hype
不过data analysis嘛光辉长存
b*****o
发帖数: 715
2
我是一个历史爱好者,同时也是搞数据分析的,我经常会觉得这两个领域非常的神似。
Marc Bloch在他的名著《the historian's craft》里把历史研究分为三个步骤:
(1)历史的考证
(2)历史的分析
(3)历史的因果
对应数据分析,就是
(1)data validation
(2)data analysis
(3)data evaluation
其中最后一步是大老板们干的事情,就是基于分析结果给出主观的价值判断以及下一步
决策。这一
步其实在大数据时代几乎没有变化,大老板们的信息来源依旧是三张ppt。可能很多人
觉得大数据时代最大的变化是在data analysis这步:以前可以用R,现在必须用
Mapreduce,以前可以用sql,现在必须用NoSql,等等。但是,如果有完善的
infrastructure,其实写Mapreduce code并不比写R code(或者python)复杂多少。
我的感觉,最大的变化其实是第一步。现在所有的数据采集都是server自动完成log,
里面有大量无意义,不可懂的东西,以及各种spam。不把这些做清理,第二步data
analysis的结果就根本不可靠。而要做好data validation,你不但要对log的设计,同
时client side和server side的方方面面都比较了解才能做好。

【在 c****t 的大作中提到】
: 【 以下文字转载自 DataScience 俱乐部 】
: 发信人: casact (瞑觋), 信区: DataScience
: 标 题: Re: 请问大数据问题和以前的数据挖掘有什么区别?
: 发信站: BBS 未名空间站 (Sat Dec 14 18:13:25 2013, 美东)
: 10年前data mining是CS的人为了卖relational数据库搞出来的hype(因为之前是传统
: 文件search类型的“数据库”donimated);现在big data是CS的人为了卖另一种数据库
: 搞出来的另一个hype
: 不过data analysis嘛光辉长存

s********r
发帖数: 2308
3
现在所谓的大数据无非是hadoop把以前非常昂贵的在mainframe上跑的事情变得便宜可
用了。
s**********o
发帖数: 14359
4
数据挖掘并不一定挖掘大数据吧,大数据不只是RECORDS多,而且是那种BLOG之类的
COLUMN,传统的数据挖掘还是在海量数据的传统数据上,HISTORY比较多而已,当然有
了BLOG了
之后,数据挖据更有做头了,一本书做为一个RECORD的BLOG COLUMN,那么一百万数据
就是一
百万本书,慢慢挖掘吧
X******2
发帖数: 5859
5
历史可以看成是应用统计的一个分支。
人们不断收集证据(数据),然后做推断或是因果分析。

【在 b*****o 的大作中提到】
: 我是一个历史爱好者,同时也是搞数据分析的,我经常会觉得这两个领域非常的神似。
: Marc Bloch在他的名著《the historian's craft》里把历史研究分为三个步骤:
: (1)历史的考证
: (2)历史的分析
: (3)历史的因果
: 对应数据分析,就是
: (1)data validation
: (2)data analysis
: (3)data evaluation
: 其中最后一步是大老板们干的事情,就是基于分析结果给出主观的价值判断以及下一步

l****i
发帖数: 398
6
可以看看NIST下的定义

【在 X******2 的大作中提到】
: 历史可以看成是应用统计的一个分支。
: 人们不断收集证据(数据),然后做推断或是因果分析。

g****l
发帖数: 213
7
数据分析的最高境界是prescriptive analytics。
第一步, descriptive analytics, 所谓历史的考证与因果分析 deal with what
happened and why did it happen
第二步,predictive analytics, 所谓的由前及后,以今天的现状预测未来 deal with
questions regarding what will happen
第三步,prescriptive analytics, 所谓的未雨绸缪,对未来种种进行预测提供解决办
法,根据不断变化的现状随时改变策略,还包括评估每种预测从而选择最优方案。这个
才是大数据的真正用武之地。
B*****g
发帖数: 34098
8
ding

with

【在 g****l 的大作中提到】
: 数据分析的最高境界是prescriptive analytics。
: 第一步, descriptive analytics, 所谓历史的考证与因果分析 deal with what
: happened and why did it happen
: 第二步,predictive analytics, 所谓的由前及后,以今天的现状预测未来 deal with
: questions regarding what will happen
: 第三步,prescriptive analytics, 所谓的未雨绸缪,对未来种种进行预测提供解决办
: 法,根据不断变化的现状随时改变策略,还包括评估每种预测从而选择最优方案。这个
: 才是大数据的真正用武之地。

g******e
发帖数: 140
9
Any example on step 3

with

【在 g****l 的大作中提到】
: 数据分析的最高境界是prescriptive analytics。
: 第一步, descriptive analytics, 所谓历史的考证与因果分析 deal with what
: happened and why did it happen
: 第二步,predictive analytics, 所谓的由前及后,以今天的现状预测未来 deal with
: questions regarding what will happen
: 第三步,prescriptive analytics, 所谓的未雨绸缪,对未来种种进行预测提供解决办
: 法,根据不断变化的现状随时改变策略,还包括评估每种预测从而选择最优方案。这个
: 才是大数据的真正用武之地。

g****k
发帖数: 9
10
海量数据的概念早就有了,大数据只是个概念的炒作,和云计算一样(分布式计算也早
就有了)。不过能吸引这么关注,炒作也就有价值了。
相关主题
请教各位DS大拿妹纸物理phd转data science求建议
kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?Impala v Hive
Big data是下一个大坑吗大妈想找数据库方面的工作 是否需要证书 在哪里上培训班?
进入DataSciences版参与讨论
G***n
发帖数: 877
11
大数据真正的卖点是hadoop一些free的可以在不远的将来取代Oracel的sql/noSql,试
想一下每年全球的大企业在数据库上要花多少钱,有了free的version后能剩下多少钱
干别的事情。
l******n
发帖数: 9344
12
cost在enterprise level的应用绝对是大头,还有hadoop的可靠性或者说分布式系统的
可靠性,纠错能力都是传统的数据库没法比的

【在 G***n 的大作中提到】
: 大数据真正的卖点是hadoop一些free的可以在不远的将来取代Oracel的sql/noSql,试
: 想一下每年全球的大企业在数据库上要花多少钱,有了free的version后能剩下多少钱
: 干别的事情。

y******u
发帖数: 804
13
大数据的定义不是一直追问“多大是大?”啊,而是大到传统的io、存储或计算都没法
上了,必须要用新开发出来的大数据方法,那就是大数据的问题域了。
w*********y
发帖数: 7895
14
你这3个步骤,就是科学家受的训练要做的事情啊。。。
当然很多时候,第一步是观察,确定收集数据的内容和方向。
但也有很多时候,也会先收集数据,先做数据描述,看看所以变量的变化,
再确定分析方向。。。

with

【在 g****l 的大作中提到】
: 数据分析的最高境界是prescriptive analytics。
: 第一步, descriptive analytics, 所谓历史的考证与因果分析 deal with what
: happened and why did it happen
: 第二步,predictive analytics, 所谓的由前及后,以今天的现状预测未来 deal with
: questions regarding what will happen
: 第三步,prescriptive analytics, 所谓的未雨绸缪,对未来种种进行预测提供解决办
: 法,根据不断变化的现状随时改变策略,还包括评估每种预测从而选择最优方案。这个
: 才是大数据的真正用武之地。

e*******n
发帖数: 872
15
我感觉大数据和传统数据的区别在于distributed和unstructured
z****e
发帖数: 54598
16
re

【在 e*******n 的大作中提到】
: 我感觉大数据和传统数据的区别在于distributed和unstructured
z****e
发帖数: 54598
17
data mining最早是data warehousing
data warehousing是database的分离
读写分离,强调读,而非写,传统db强调写而非读
尤其是transaction,会占用大量的资源
如果读写无法分离的话,会导致数据抽取很消耗生产性能
所以提出了分离的概念,当时还没有nosql的说法
或者nosql本身就是一个退化了的东西
所以当时认为,所有的数据都应该是结构化的数据
db也的确存大量结构化的数据,所以data warehouse一度盛嚣尘上
不过如果对db有所了解的话就大概知道,db本身并不统一
各种db有自己的sql features,导致不同db之间很多接口不一样
所以当时搞分布式的搞出了hibernate来封装所有的db差异
db都不统一,data warehouse就更不统一了,所以最后这个东西也没有掀起太大的波澜
很快,有家公司叫google,有个大学叫stanford
stanford关于web search&text analysis的研究有一定年头了
最早统计的应用可以追溯到70年代,然后两个phd对web page的研究
做出了一定的成绩,尤其是发现了url的次数作为reference和排序的标准
然后就替代了yahoo,再然后yahoo根据google的论文模型,作出了java版的google系统
那就是hadoop,然后hadoop用了hdfs和hbase,然后有人提出了cap理论
cap理论是一个分布式理论,但是也可以用在数据存储的性能上
因为本来分布式就跟数据存储有着千丝万缕的联系,比如hibernate&db
再然后根据cap分别制作出了不同的persistence产品,比如cassandra,比如hbase
还有redis, couchdb这些,这些不同的产品很好滴填补了db在储存数据上的各种不足
而面对这些混乱结构的数据,如何挖掘出其中的联系
很自然而然地就想到了统计
所以分布式,数据存储,统计这几个学科都在适当的时间发现需要对方
然后一拍即合,就开始搞起来,也是一个历史的必然
严格说来应该是
并行计算(主机,hpc这些) -> 分布式计算(decentralized) -> cloud(recentralized)
数据库(structured) -> nosql(unstructured or semi structured)
数据挖掘(business intelligence) -> applied statistics(回归本源)
分别独立发展,最后融合
M*********9
发帖数: 15637
18
觉得step1 and 3比较有挑战性。

with

【在 g****l 的大作中提到】
: 数据分析的最高境界是prescriptive analytics。
: 第一步, descriptive analytics, 所谓历史的考证与因果分析 deal with what
: happened and why did it happen
: 第二步,predictive analytics, 所谓的由前及后,以今天的现状预测未来 deal with
: questions regarding what will happen
: 第三步,prescriptive analytics, 所谓的未雨绸缪,对未来种种进行预测提供解决办
: 法,根据不断变化的现状随时改变策略,还包括评估每种预测从而选择最优方案。这个
: 才是大数据的真正用武之地。

M*********9
发帖数: 15637
19
顺路问一下。 监控平台收集的数据除了能用来完善监控平台, 还能有点什么应用?

【在 M*********9 的大作中提到】
: 觉得step1 and 3比较有挑战性。
:
: with

z****e
发帖数: 54598
20
对it有用,生产数据比如内存使用,硬盘使用
这些都有很重要的意义,不仅仅是监控,还有performance
东西越大,可以优化的空间也就越大

【在 M*********9 的大作中提到】
: 顺路问一下。 监控平台收集的数据除了能用来完善监控平台, 还能有点什么应用?
相关主题
请问大家有没有直接用java全程写mapreduce的程序的?请问学习NoSQL有什么好点的参考书?
刚知道有这个版。问一下nosql比sql好在哪里?data science Master, 美国哪个大学好?
如何学习Hadoop?How to prepare for the DS interview?
进入DataSciences版参与讨论
M*********9
发帖数: 15637
21
这是系统维护和优化? 那监控数据本身有可能有点什么附加值么?

【在 z****e 的大作中提到】
: 对it有用,生产数据比如内存使用,硬盘使用
: 这些都有很重要的意义,不仅仅是监控,还有performance
: 东西越大,可以优化的空间也就越大

i**i
发帖数: 1500
22
这是在比较苹果和橘子
Big data = big + unstructured data. 解决存储什么的问题
Datamining = data --> information. 描述一个分析的过程
wiki:
Big data can also be defined as "Big data is a large volume unstructured
data which can not be handled by standard database management systems like
DBMS, RDBMS or ORDBMS".
i**i
发帖数: 1500
23
挖坟贴
u***n
发帖数: 10554
24
Free一词亮了。

【在 G***n 的大作中提到】
: 大数据真正的卖点是hadoop一些free的可以在不远的将来取代Oracel的sql/noSql,试
: 想一下每年全球的大企业在数据库上要花多少钱,有了free的version后能剩下多少钱
: 干别的事情。

z****e
发帖数: 54598
25
cloud的话应该有一定附加值

【在 M*********9 的大作中提到】
: 这是系统维护和优化? 那监控数据本身有可能有点什么附加值么?
z****e
发帖数: 54598
26
Big data is like teenage sex: everyone talks about it, nobody really knows
how to do it, everyone thinks everyone else is doing it, so everyone claims
they are doing it...

【在 i**i 的大作中提到】
: 这是在比较苹果和橘子
: Big data = big + unstructured data. 解决存储什么的问题
: Datamining = data --> information. 描述一个分析的过程
: wiki:
: Big data can also be defined as "Big data is a large volume unstructured
: data which can not be handled by standard database management systems like
: DBMS, RDBMS or ORDBMS".

1 (共1页)
进入DataSciences版参与讨论
相关主题
data science Master, 美国哪个大学好?【求审稿机会】求机器学习,统计,优化,数据挖掘方面的审稿机
How to prepare for the DS interview?请教各位DS大拿
都用了spark了吗?kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?
有没有open source DB像greenplum那样同时支持RDBMS 和hadoop呢 (转载)Big data是下一个大坑吗
DS对数据库需要了解多少?妹纸物理phd转data science求建议
阿里巴巴数据挖掘开赛:100万 (转载)Impala v Hive
DS工作还是要去美国找么大妈想找数据库方面的工作 是否需要证书 在哪里上培训班?
组建互联网公司数据团队请问大家有没有直接用java全程写mapreduce的程序的?
相关话题的讨论汇总
话题: 数据话题: data话题: big话题: db话题: 数据挖掘