Re: 请问大数据问题和以前的数据挖掘有什么区别？ (转载) - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - Re: 请问大数据问题和以前的数据挖掘有什么区别？ (转载)

相关主题
● DS对数据库需要了解多少？	● 妹纸物理phd转data science求建议
● 阿里巴巴数据挖掘开赛：100万 (转载)	● Impala v Hive
● DS工作还是要去美国找么	● 大妈想找数据库方面的工作是否需要证书在哪里上培训班？
● 组建互联网公司数据团队	● 请问大家有没有直接用java全程写mapreduce的程序的？
● 【求审稿机会】求机器学习，统计，优化，数据挖掘方面的审稿机	● 刚知道有这个版。问一下nosql比sql好在哪里？
● 请教各位DS大拿	● 如何学习Hadoop?
● kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?	● 请问学习NoSQL有什么好点的参考书？
● Big data是下一个大坑吗	● data science Master, 美国哪个大学好？

相关话题的讨论汇总
话题: 数据话题: data话题: big话题: db话题: 数据挖掘

进入DataSciences版参与讨论

(共1页)

c****t
发帖数: 19049

【以下文字转载自 DataScience 俱乐部】
发信人: casact (瞑觋), 信区: DataScience
标题: Re: 请问大数据问题和以前的数据挖掘有什么区别？
发信站: BBS 未名空间站 (Sat Dec 14 18:13:25 2013, 美东)
10年前data mining是CS的人为了卖relational数据库搞出来的hype（因为之前是传统
文件search类型的“数据库”donimated);现在big data是CS的人为了卖另一种数据库
搞出来的另一个hype
不过data analysis嘛光辉长存

b*****o
发帖数: 715

我是一个历史爱好者，同时也是搞数据分析的，我经常会觉得这两个领域非常的神似。
Marc Bloch在他的名著《the historian's craft》里把历史研究分为三个步骤：
（1）历史的考证
（2）历史的分析
（3）历史的因果
对应数据分析，就是
（1）data validation
（2）data analysis
（3）data evaluation
其中最后一步是大老板们干的事情，就是基于分析结果给出主观的价值判断以及下一步
决策。这一
步其实在大数据时代几乎没有变化，大老板们的信息来源依旧是三张ppt。可能很多人
觉得大数据时代最大的变化是在data analysis这步：以前可以用R，现在必须用
Mapreduce，以前可以用sql，现在必须用NoSql，等等。但是，如果有完善的
infrastructure，其实写Mapreduce code并不比写R code（或者python）复杂多少。
我的感觉，最大的变化其实是第一步。现在所有的数据采集都是server自动完成log，
里面有大量无意义，不可懂的东西，以及各种spam。不把这些做清理，第二步data
analysis的结果就根本不可靠。而要做好data validation，你不但要对log的设计，同
时client side和server side的方方面面都比较了解才能做好。

【在 c****t 的大作中提到】

: 【以下文字转载自 DataScience 俱乐部】
: 发信人: casact (瞑觋), 信区: DataScience
: 标题: Re: 请问大数据问题和以前的数据挖掘有什么区别？
: 发信站: BBS 未名空间站 (Sat Dec 14 18:13:25 2013, 美东)
: 10年前data mining是CS的人为了卖relational数据库搞出来的hype（因为之前是传统
: 文件search类型的“数据库”donimated);现在big data是CS的人为了卖另一种数据库
: 搞出来的另一个hype
: 不过data analysis嘛光辉长存

s********r
发帖数: 2308

现在所谓的大数据无非是hadoop把以前非常昂贵的在mainframe上跑的事情变得便宜可
用了。

s**********o
发帖数: 14359

数据挖掘并不一定挖掘大数据吧，大数据不只是RECORDS多，而且是那种BLOG之类的
COLUMN，传统的数据挖掘还是在海量数据的传统数据上，HISTORY比较多而已，当然有
了BLOG了
之后，数据挖据更有做头了，一本书做为一个RECORD的BLOG COLUMN，那么一百万数据
就是一
百万本书，慢慢挖掘吧

X******2
发帖数: 5859

历史可以看成是应用统计的一个分支。
人们不断收集证据(数据)，然后做推断或是因果分析。

【在 b*****o 的大作中提到】

: 我是一个历史爱好者，同时也是搞数据分析的，我经常会觉得这两个领域非常的神似。
: Marc Bloch在他的名著《the historian's craft》里把历史研究分为三个步骤：
: （1）历史的考证
: （2）历史的分析
: （3）历史的因果
: 对应数据分析，就是
: （1）data validation
: （2）data analysis
: （3）data evaluation
: 其中最后一步是大老板们干的事情，就是基于分析结果给出主观的价值判断以及下一步

l****i
发帖数: 398

可以看看NIST下的定义

【在 X******2 的大作中提到】

: 历史可以看成是应用统计的一个分支。
: 人们不断收集证据(数据)，然后做推断或是因果分析。

g****l
发帖数: 213

数据分析的最高境界是prescriptive analytics。
第一步， descriptive analytics, 所谓历史的考证与因果分析 deal with what
happened and why did it happen
第二步，predictive analytics, 所谓的由前及后，以今天的现状预测未来 deal with
questions regarding what will happen
第三步，prescriptive analytics, 所谓的未雨绸缪，对未来种种进行预测提供解决办
法，根据不断变化的现状随时改变策略，还包括评估每种预测从而选择最优方案。这个
才是大数据的真正用武之地。

B*****g
发帖数: 34098

ding

with

【在 g****l 的大作中提到】

: 数据分析的最高境界是prescriptive analytics。
: 第一步， descriptive analytics, 所谓历史的考证与因果分析 deal with what
: happened and why did it happen
: 第二步，predictive analytics, 所谓的由前及后，以今天的现状预测未来 deal with
: questions regarding what will happen
: 第三步，prescriptive analytics, 所谓的未雨绸缪，对未来种种进行预测提供解决办
: 法，根据不断变化的现状随时改变策略，还包括评估每种预测从而选择最优方案。这个
: 才是大数据的真正用武之地。

g******e
发帖数: 140

Any example on step 3

with

【在 g****l 的大作中提到】

g****k
发帖数: 9

海量数据的概念早就有了，大数据只是个概念的炒作，和云计算一样（分布式计算也早
就有了）。不过能吸引这么关注，炒作也就有价值了。

相关主题
● 请教各位DS大拿	● 妹纸物理phd转data science求建议
● kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?	● Impala v Hive
● Big data是下一个大坑吗	● 大妈想找数据库方面的工作是否需要证书在哪里上培训班？
进入DataSciences版参与讨论

G***n
发帖数: 877

大数据真正的卖点是hadoop一些free的可以在不远的将来取代Oracel的sql/noSql，试
想一下每年全球的大企业在数据库上要花多少钱，有了free的version后能剩下多少钱
干别的事情。

l******n
发帖数: 9344

cost在enterprise level的应用绝对是大头，还有hadoop的可靠性或者说分布式系统的
可靠性，纠错能力都是传统的数据库没法比的

【在 G***n 的大作中提到】

: 大数据真正的卖点是hadoop一些free的可以在不远的将来取代Oracel的sql/noSql，试
: 想一下每年全球的大企业在数据库上要花多少钱，有了free的version后能剩下多少钱
: 干别的事情。

y******u
发帖数: 804

大数据的定义不是一直追问“多大是大？”啊，而是大到传统的io、存储或计算都没法
上了，必须要用新开发出来的大数据方法，那就是大数据的问题域了。

w*********y
发帖数: 7895

你这3个步骤，就是科学家受的训练要做的事情啊。。。
当然很多时候，第一步是观察，确定收集数据的内容和方向。
但也有很多时候，也会先收集数据，先做数据描述，看看所以变量的变化，
再确定分析方向。。。

with

【在 g****l 的大作中提到】

e*******n
发帖数: 872

我感觉大数据和传统数据的区别在于distributed和unstructured

z****e
发帖数: 54598

re

【在 e*******n 的大作中提到】

: 我感觉大数据和传统数据的区别在于distributed和unstructured

z****e
发帖数: 54598

data mining最早是data warehousing
data warehousing是database的分离
读写分离，强调读，而非写，传统db强调写而非读
尤其是transaction，会占用大量的资源
如果读写无法分离的话，会导致数据抽取很消耗生产性能
所以提出了分离的概念，当时还没有nosql的说法
或者nosql本身就是一个退化了的东西
所以当时认为，所有的数据都应该是结构化的数据
db也的确存大量结构化的数据，所以data warehouse一度盛嚣尘上
不过如果对db有所了解的话就大概知道，db本身并不统一
各种db有自己的sql features，导致不同db之间很多接口不一样
所以当时搞分布式的搞出了hibernate来封装所有的db差异
db都不统一，data warehouse就更不统一了，所以最后这个东西也没有掀起太大的波澜
很快，有家公司叫google，有个大学叫stanford
stanford关于web search&text analysis的研究有一定年头了
最早统计的应用可以追溯到70年代，然后两个phd对web page的研究
做出了一定的成绩，尤其是发现了url的次数作为reference和排序的标准
然后就替代了yahoo，再然后yahoo根据google的论文模型，作出了java版的google系统
那就是hadoop，然后hadoop用了hdfs和hbase，然后有人提出了cap理论
cap理论是一个分布式理论，但是也可以用在数据存储的性能上
因为本来分布式就跟数据存储有着千丝万缕的联系，比如hibernate&db
再然后根据cap分别制作出了不同的persistence产品，比如cassandra，比如hbase
还有redis, couchdb这些，这些不同的产品很好滴填补了db在储存数据上的各种不足
而面对这些混乱结构的数据，如何挖掘出其中的联系
很自然而然地就想到了统计
所以分布式，数据存储，统计这几个学科都在适当的时间发现需要对方
然后一拍即合，就开始搞起来，也是一个历史的必然
严格说来应该是
并行计算(主机,hpc这些) -> 分布式计算(decentralized) -> cloud(recentralized)
数据库(structured) -> nosql(unstructured or semi structured)
数据挖掘(business intelligence) -> applied statistics(回归本源)
分别独立发展，最后融合

M*********9
发帖数: 15637

觉得step1 and 3比较有挑战性。

with

【在 g****l 的大作中提到】

M*********9
发帖数: 15637

顺路问一下。监控平台收集的数据除了能用来完善监控平台，还能有点什么应用？

【在 M*********9 的大作中提到】

: 觉得step1 and 3比较有挑战性。
:
: with

z****e
发帖数: 54598

对it有用，生产数据比如内存使用，硬盘使用
这些都有很重要的意义，不仅仅是监控，还有performance
东西越大，可以优化的空间也就越大

【在 M*********9 的大作中提到】

: 顺路问一下。监控平台收集的数据除了能用来完善监控平台，还能有点什么应用？

相关主题
● 请问大家有没有直接用java全程写mapreduce的程序的？	● 请问学习NoSQL有什么好点的参考书？
● 刚知道有这个版。问一下nosql比sql好在哪里？	● data science Master, 美国哪个大学好？
● 如何学习Hadoop?	● How to prepare for the DS interview?
进入DataSciences版参与讨论

M*********9
发帖数: 15637

这是系统维护和优化？那监控数据本身有可能有点什么附加值么？

【在 z****e 的大作中提到】

: 对it有用，生产数据比如内存使用，硬盘使用
: 这些都有很重要的意义，不仅仅是监控，还有performance
: 东西越大，可以优化的空间也就越大

i**i
发帖数: 1500

这是在比较苹果和橘子
Big data = big + unstructured data. 解决存储什么的问题
Datamining = data --> information. 描述一个分析的过程
wiki:
Big data can also be defined as "Big data is a large volume unstructured
data which can not be handled by standard database management systems like
DBMS, RDBMS or ORDBMS".

i**i
发帖数: 1500

挖坟贴

u***n
发帖数: 10554

Free一词亮了。

【在 G***n 的大作中提到】

z****e
发帖数: 54598

cloud的话应该有一定附加值

【在 M*********9 的大作中提到】

: 这是系统维护和优化？那监控数据本身有可能有点什么附加值么？

z****e
发帖数: 54598

Big data is like teenage sex: everyone talks about it, nobody really knows
how to do it, everyone thinks everyone else is doing it, so everyone claims
they are doing it...

【在 i**i 的大作中提到】

: 这是在比较苹果和橘子
: Big data = big + unstructured data. 解决存储什么的问题
: Datamining = data --> information. 描述一个分析的过程
: wiki:
: Big data can also be defined as "Big data is a large volume unstructured
: data which can not be handled by standard database management systems like
: DBMS, RDBMS or ORDBMS".

(共1页)

进入DataSciences版参与讨论

相关主题
● data science Master, 美国哪个大学好？	● 【求审稿机会】求机器学习，统计，优化，数据挖掘方面的审稿机
● How to prepare for the DS interview?	● 请教各位DS大拿
● 都用了spark了吗？	● kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?
● 有没有open source DB像greenplum那样同时支持RDBMS 和hadoop呢 (转载)	● Big data是下一个大坑吗
● DS对数据库需要了解多少？	● 妹纸物理phd转data science求建议
● 阿里巴巴数据挖掘开赛：100万 (转载)	● Impala v Hive
● DS工作还是要去美国找么	● 大妈想找数据库方面的工作是否需要证书在哪里上培训班？
● 组建互联网公司数据团队	● 请问大家有没有直接用java全程写mapreduce的程序的？

相关话题的讨论汇总
话题: 数据话题: data话题: big话题: db话题: 数据挖掘

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天