由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 你们有没有一种感觉,其实big data
相关主题
求推荐database的软件 (转载)有没有open source DB像greenplum那样同时支持RDBMS 和hadoop呢 (转载)
问个弱智问题,有网站用nosql做primary db么?为了不至于谬种流传我还是回应一下吧
MongoDB力压Cassandra快速出app的MVP, 有什么推荐的框架和postgresql结合的比较好的么?
big data怎么搞定商业报表?A家一个system designe, 求大牛指点
我的一个客户案例(high traffic),请大家批判分析指点春运火车票2个方案比较
古德霸啊古德霸,不打你脸是不行了到底谁赢了????????????
奉劝一句那些动不动就谈架构的傻逼,谨言慎行nosql有一个好处就是
系统无处不DB一个关于big data 系统架构的设计问题
相关话题的讨论汇总
话题: nosql话题: data话题: big话题: db话题: hadoop
进入Programming版参与讨论
1 (共1页)
z****e
发帖数: 54598
1
除了数据存放格式以外
其实big data就是把以前db所走过的路
给再走一遍
区别仅仅在于,以前db的各种标准的实现都是强制性实现的
不可以不实现,现在big data的各种东西,实现都是非强制性的
完全可以不实现某些东西
比如transaction
其实除开transaction以外,db本身也没有那么糟糕了
jpa最让我无法忍受的一点就是我写一个简单的insert
都尼玛要上transaction啊
A******g
发帖数: 612
2
db学术圈的人都是这么说的。db一开始主要还是为OLTP设计的,多client读写频繁,还
不能有一点错,比如ATM。nosql做大数据分析的时候一般也不往里面写了,然后算错一
点也没关系,所以可以把transaction省了。jpa支持多个client一起写吧,不
transaction怎么保证data consistance?

【在 z****e 的大作中提到】
: 除了数据存放格式以外
: 其实big data就是把以前db所走过的路
: 给再走一遍
: 区别仅仅在于,以前db的各种标准的实现都是强制性实现的
: 不可以不实现,现在big data的各种东西,实现都是非强制性的
: 完全可以不实现某些东西
: 比如transaction
: 其实除开transaction以外,db本身也没有那么糟糕了
: jpa最让我无法忍受的一点就是我写一个简单的insert
: 都尼玛要上transaction啊

b*******r
发帖数: 361
3
z****e
发帖数: 54598
4
看来是over design了
而且精度要求到real time的地步
其实在很多领域,都不是大头
insert不用transaction你看用一般的sql就可以做到
jpa和db都over design了

【在 A******g 的大作中提到】
: db学术圈的人都是这么说的。db一开始主要还是为OLTP设计的,多client读写频繁,还
: 不能有一点错,比如ATM。nosql做大数据分析的时候一般也不往里面写了,然后算错一
: 点也没关系,所以可以把transaction省了。jpa支持多个client一起写吧,不
: transaction怎么保证data consistance?

z****e
发帖数: 54598
5
就如老外看拉面

【在 b*******r 的大作中提到】

o****u
发帖数: 714
6
量变引起质变,big data 的那些东西(map-reduce)有时候分析能力还不如传统db的
复杂query,
做个join都挺麻烦的 。
但是传统db处理几百个Tb的数据要么很困难,要么就是成本太高。

【在 z****e 的大作中提到】
: 除了数据存放格式以外
: 其实big data就是把以前db所走过的路
: 给再走一遍
: 区别仅仅在于,以前db的各种标准的实现都是强制性实现的
: 不可以不实现,现在big data的各种东西,实现都是非强制性的
: 完全可以不实现某些东西
: 比如transaction
: 其实除开transaction以外,db本身也没有那么糟糕了
: jpa最让我无法忍受的一点就是我写一个简单的insert
: 都尼玛要上transaction啊

z****e
发帖数: 54598
7
传统db就是设计得过份了
不给一般应用留活路,啥都要上最牛逼的那一套
这是不对滴,bigdata主要是慢,自己要去做各种优化
但是只要知道概念,其实操作big data的东西比操作db要简单点

【在 o****u 的大作中提到】
: 量变引起质变,big data 的那些东西(map-reduce)有时候分析能力还不如传统db的
: 复杂query,
: 做个join都挺麻烦的 。
: 但是传统db处理几百个Tb的数据要么很困难,要么就是成本太高。

A******g
发帖数: 612
8
大牛,ACID的database每一句sql语句都是一个transaction啊,"transaction" key
word是把多个sql语句弄到一个transaction里。虽然MySQL里MyISAM storage engine不
支持transaction,但最常用的innodb的transactional的。Transaction在多线程里是
一个很方便的概念,不然用户自己要实现锁或者其他syncrhonization的算法。如果只
是对单用户,那才能说over design。

【在 z****e 的大作中提到】
: 看来是over design了
: 而且精度要求到real time的地步
: 其实在很多领域,都不是大头
: insert不用transaction你看用一般的sql就可以做到
: jpa和db都over design了

c******o
发帖数: 1277
9
big data的潮流来源于实际需求,而处理方法其实来源于BASE (compare to ACID)
http://www.johndcook.com/blog/2009/07/06/brewer-cap-theorem-bas
"Eric Brewer’s CAP theorem says that if you want consistency, availability,
and partition tolerance, you have to settle for two out of three."
"It’s harder to develop software in the fault-tolerant BASE world compared
to the fastidious ACID world, but Brewer’s CAP theorem says you have no
choice if you want to scale up."
g****r
发帖数: 1589
10
lol,big data更多的是一种商业模式上的创新吧,企业从自己已有的、或者可以收集
到的海量数据中挖掘有商业价值的东西,对企业的运作是个巨大的改进。涉及到的技术
上的东西,基本就存储(nosql)和处理(map reduce),但说白了nosql和map reduce
除了涉及点分布式计算的理论,相对于传统DB理论来说,真的是简单得多,没多少高级
货啊,就赶个时髦罢了

【在 b*******r 的大作中提到】

相关主题
古德霸啊古德霸,不打你脸是不行了有没有open source DB像greenplum那样同时支持RDBMS 和hadoop呢 (转载)
奉劝一句那些动不动就谈架构的傻逼,谨言慎行为了不至于谬种流传我还是回应一下吧
系统无处不DB快速出app的MVP, 有什么推荐的框架和postgresql结合的比较好的么?
进入Programming版参与讨论
c******o
发帖数: 1277
11
BASE 是
Basically Available,
Soft State,
Eventual Consistency
本身倒是很让人误解,不过你就把它想成 trade consistency for availability.
ACID是trade availability for consistency

availability,
compared

【在 c******o 的大作中提到】
: big data的潮流来源于实际需求,而处理方法其实来源于BASE (compare to ACID)
: http://www.johndcook.com/blog/2009/07/06/brewer-cap-theorem-bas
: "Eric Brewer’s CAP theorem says that if you want consistency, availability,
: and partition tolerance, you have to settle for two out of three."
: "It’s harder to develop software in the fault-tolerant BASE world compared
: to the fastidious ACID world, but Brewer’s CAP theorem says you have no
: choice if you want to scale up."

g*****g
发帖数: 34805
12
从数据库实现的角度讲,NoSQL DB不见得比传统数据库更复杂。
但从开发者的角度来说,NoSQL比RDBMS复杂太多了。RDBMS大同小异,而常见的NoSQL
就有10个左右。挑一个合适的本身就很见功底。

reduce

【在 g****r 的大作中提到】
: lol,big data更多的是一种商业模式上的创新吧,企业从自己已有的、或者可以收集
: 到的海量数据中挖掘有商业价值的东西,对企业的运作是个巨大的改进。涉及到的技术
: 上的东西,基本就存储(nosql)和处理(map reduce),但说白了nosql和map reduce
: 除了涉及点分布式计算的理论,相对于传统DB理论来说,真的是简单得多,没多少高级
: 货啊,就赶个时髦罢了

c******o
发帖数: 1277
13
我挺喜欢这个个家伙的这个blog
我觉得基本上都还中肯
http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis
我只对mongodb, redis, Cassandra熟,觉得他写的不错。

【在 g*****g 的大作中提到】
: 从数据库实现的角度讲,NoSQL DB不见得比传统数据库更复杂。
: 但从开发者的角度来说,NoSQL比RDBMS复杂太多了。RDBMS大同小异,而常见的NoSQL
: 就有10个左右。挑一个合适的本身就很见功底。
:
: reduce

h*h
发帖数: 845
14
Strata NY上的slide? 哪个presentation?
上礼拜俺老板present后还得意洋洋的跟俺引用了这句话,说俺们actually get laid,
所以people are interested in the details...

【在 b*******r 的大作中提到】

z****e
发帖数: 54598
15
你不觉得它罗列了一堆下来,别人连看都看不完么?
就是光看一遍就很痛苦,别说最后记住了
我觉得从cap三个开始分,然后再细分,可以很容易滴定位各种persistence产品

【在 c******o 的大作中提到】
: 我挺喜欢这个个家伙的这个blog
: 我觉得基本上都还中肯
: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis
: 我只对mongodb, redis, Cassandra熟,觉得他写的不错。

s*****r
发帖数: 43070
16
big data就是解放了生产力,让以前不太重要的data能像DB一样存放,关键是成本低廉
。这年头硬盘和CPU都不值钱,Oracle的license死贵。没有big data,不重要的数据就
只能放弃,比如用户在界面上的活动规律,不可能用RMDB来存取。
有了big data,想存什么data都没不用计较成本,对于data mining立马进入新时代。

【在 o****u 的大作中提到】
: 量变引起质变,big data 的那些东西(map-reduce)有时候分析能力还不如传统db的
: 复杂query,
: 做个join都挺麻烦的 。
: 但是传统db处理几百个Tb的数据要么很困难,要么就是成本太高。

g****r
发帖数: 1589
17
看你干啥,你要是想用NoSql搞ACID,那你绝对NB。但大部分用NoSql的基本就是当data
ware house或者是存trace用的,真谈不上有啥复杂的,而且NoSql就那几种类型,key
-value,document,table column,graph,每个类型里面也就那个几种,真需要用需
要决定选哪个,网上那么多技术博客、论坛,google半小时差不多就知道那个更合适了

【在 g*****g 的大作中提到】
: 从数据库实现的角度讲,NoSQL DB不见得比传统数据库更复杂。
: 但从开发者的角度来说,NoSQL比RDBMS复杂太多了。RDBMS大同小异,而常见的NoSQL
: 就有10个左右。挑一个合适的本身就很见功底。
:
: reduce

g*****g
发帖数: 34805
18
扯蛋呀,俺们用Cassandra,一切从性能出发。所有的query都要计划好,一旦没考虑到
就面临很麻烦的migration。随便一个索引,都是composite column实现,比SQL可是
复杂太多了。
我老在无数场合说过,每次用NoSQL之前都要先想想有没有必要。不是大数据一般都是
overkill。

data
key

【在 g****r 的大作中提到】
: 看你干啥,你要是想用NoSql搞ACID,那你绝对NB。但大部分用NoSql的基本就是当data
: ware house或者是存trace用的,真谈不上有啥复杂的,而且NoSql就那几种类型,key
: -value,document,table column,graph,每个类型里面也就那个几种,真需要用需
: 要决定选哪个,网上那么多技术博客、论坛,google半小时差不多就知道那个更合适了

p**r
发帖数: 5853
19
每次IT界一出新名词,就意味着新一轮的忽悠又开始了。
学术界我不懂,但是工业领域,其实都是实战出真知,
什么大数据,云计算,都是忽悠。
而且,很多公司需求都没到那个级别,也跟着上,
上了之后都不明白啥是啥,那不是扯淡吗。
别人是百万美军对德军,需要空中火力支援,
你丫打个小鹿,也跟人学来套海陆空配合。
结果猎物没打着,强大火力系统把自己给绕进去了。。
g****r
发帖数: 1589
20
query经常变或者很难一开始就确定的应用场景,用nosql根本就不合适,你用算盘去做
原来计算器要干的活当然复杂了。你用RDBMS去搞分布式、搞sharding,也很复杂

【在 g*****g 的大作中提到】
: 扯蛋呀,俺们用Cassandra,一切从性能出发。所有的query都要计划好,一旦没考虑到
: 就面临很麻烦的migration。随便一个索引,都是composite column实现,比SQL可是
: 复杂太多了。
: 我老在无数场合说过,每次用NoSQL之前都要先想想有没有必要。不是大数据一般都是
: overkill。
:
: data
: key

相关主题
A家一个system designe, 求大牛指点nosql有一个好处就是
春运火车票2个方案比较一个关于big data 系统架构的设计问题
到底谁赢了????????????请大牛来谈谈对Solr的看法
进入Programming版参与讨论
g*****g
发帖数: 34805
21
RDMBS达不到我们所需要的high availability和scalability,没得选。MySQL
sharding可能可以做到,但不比用Cassandra简单。

【在 g****r 的大作中提到】
: query经常变或者很难一开始就确定的应用场景,用nosql根本就不合适,你用算盘去做
: 原来计算器要干的活当然复杂了。你用RDBMS去搞分布式、搞sharding,也很复杂

N********n
发帖数: 8363
22

BD is mostly used to store the internet JUNK data such as web pages,
blogs, comments, thumb-up, etc. It's a big pile but has little value
so BD indeed simply stores a big pile of garbage, which is why such
data is unstructured to begin w/. BD is merely hype.

【在 p**r 的大作中提到】
: 每次IT界一出新名词,就意味着新一轮的忽悠又开始了。
: 学术界我不懂,但是工业领域,其实都是实战出真知,
: 什么大数据,云计算,都是忽悠。
: 而且,很多公司需求都没到那个级别,也跟着上,
: 上了之后都不明白啥是啥,那不是扯淡吗。
: 别人是百万美军对德军,需要空中火力支援,
: 你丫打个小鹿,也跟人学来套海陆空配合。
: 结果猎物没打着,强大火力系统把自己给绕进去了。。

g*****g
发帖数: 34805
23
Saving is just one part of puzzle, extracting useful info out of it is
another,
that's why it's called big data analysis and Hadoop et al. is burning hot.
Hype or not, there's money to be made and we are talking about trillion
dollar
business. Internet and smartphone were a hype too. Just a quote from your
boss SB. I don't know how many times you need to be proven wrong until you
can stop your bullshit.
"Now we'll get a chance to go through this again in phones and music players
. There's no chance that the iPhone is going to get any significant market
share. No chance. It's a $500 subsidized item. They may make a lot of money.
But if you actually take a look at the 1.3 billion phones that get sold, I'
d prefer to have our software in 60% or 70% or 80% of them, than I would to
have 2% or 3%, which is what Apple might get."

【在 N********n 的大作中提到】
:
: BD is mostly used to store the internet JUNK data such as web pages,
: blogs, comments, thumb-up, etc. It's a big pile but has little value
: so BD indeed simply stores a big pile of garbage, which is why such
: data is unstructured to begin w/. BD is merely hype.

I******y
发帖数: 176
24
我们公司做near real-time reporting on customer data. 一开始是用mongo后来发现
需要很多一定conditions下 count的操作,mongo的performance很不好。所以最后全转
投Relational databases 用OLAP (fact + dimension tables) 快好多。本人是门外
汉,不清楚到底是mongo不擅长这样的application还是我们mongo dba设计的不够好。
c******o
发帖数: 1277
25
from what I know the recent BD wave begin from G/F/T (Google BigTable is the
root of many NoSQL)
Look at how they used it,
Google => web indexing, "My Search History", Google Earth, Google Code
hosting, Orkut, YouTube, and Gmail
Facebook => Inbox Search, Instagram unit, primary big data analytical store,
messages and monitoring (still mainly use sharded MySQL though, with a lot
of optimization and not really use a lot of relational logic)
Twitter =>Analytical data (like Facebook, still mostly customized MySQL
based store as backend)
As you can see, Google/Facebook using NoSQL to do a lot of critical things,
you can bot say it is garbage.
But they also use NoSQL with highly customized query engine layer.
I agree though, Big Data is really not for small companies, no one really
hit the Big Data for small companies
Even twitter, not really "big" enough, only Google really used NoSQL in
great extent, but of course, Big table is not just NoSQL, and alot times not
really used as NoSQL
NoSQL不是啥好的名词,太多不同的东西都被称为NoSQL, 其实唯一一样的特点就是“没
有SQL"
对于小公司来说,其实NoSQL很多时候不是用于bigdata, 而是用于“我不需要sql"

【在 N********n 的大作中提到】
:
: BD is mostly used to store the internet JUNK data such as web pages,
: blogs, comments, thumb-up, etc. It's a big pile but has little value
: so BD indeed simply stores a big pile of garbage, which is why such
: data is unstructured to begin w/. BD is merely hype.

N*****m
发帖数: 42603
26
是mongo不行



【在 I******y 的大作中提到】
: 我们公司做near real-time reporting on customer data. 一开始是用mongo后来发现
: 需要很多一定conditions下 count的操作,mongo的performance很不好。所以最后全转
: 投Relational databases 用OLAP (fact + dimension tables) 快好多。本人是门外
: 汉,不清楚到底是mongo不擅长这样的application还是我们mongo dba设计的不够好。

c******o
发帖数: 1277
27
mongodb count()很差, 2.4 好一点了 https://jira.mongodb.org/browse/SERVER-
1752
mongodb performance和内存有关,和index/shard key的关系很大,
shard mongodb 和 index creation是很有学问的。
还有的就是mongodb 的写lock是per db,不是per collection的。
所以mongodb只适合于一定的东西。



【在 I******y 的大作中提到】
: 我们公司做near real-time reporting on customer data. 一开始是用mongo后来发现
: 需要很多一定conditions下 count的操作,mongo的performance很不好。所以最后全转
: 投Relational databases 用OLAP (fact + dimension tables) 快好多。本人是门外
: 汉,不清楚到底是mongo不擅长这样的application还是我们mongo dba设计的不够好。

g*****g
发帖数: 34805
28
Applications using M$ stack typically are not big enough to take advantage
of NoSQL DBs. I am not surprised M$ people talking NoSQL as hype because it'
s something they don't understand.

the
store,
lot

【在 c******o 的大作中提到】
: from what I know the recent BD wave begin from G/F/T (Google BigTable is the
: root of many NoSQL)
: Look at how they used it,
: Google => web indexing, "My Search History", Google Earth, Google Code
: hosting, Orkut, YouTube, and Gmail
: Facebook => Inbox Search, Instagram unit, primary big data analytical store,
: messages and monitoring (still mainly use sharded MySQL though, with a lot
: of optimization and not really use a lot of relational logic)
: Twitter =>Analytical data (like Facebook, still mostly customized MySQL
: based store as backend)

g*****g
发帖数: 34805
29
I don't think any distributed DB will do well on count. You can always use a
mixed approach though.



【在 I******y 的大作中提到】
: 我们公司做near real-time reporting on customer data. 一开始是用mongo后来发现
: 需要很多一定conditions下 count的操作,mongo的performance很不好。所以最后全转
: 投Relational databases 用OLAP (fact + dimension tables) 快好多。本人是门外
: 汉,不清楚到底是mongo不擅长这样的application还是我们mongo dba设计的不够好。

s*********b
发帖数: 815
30
简单的distributed count再好实现不过了。凡是属于monoid的操作都是程序猿的好朋
友。也有现成的DB做这个。您老是Netflix的,可以到go/logsummary,或者go/rt-doc
体验一下。;-)

a

【在 g*****g 的大作中提到】
: I don't think any distributed DB will do well on count. You can always use a
: mixed approach though.
:
: 。

相关主题
现在做手机网游,选什么数据库合适?问个弱智问题,有网站用nosql做primary db么?
mongoDB跟传统关系数据库比有什么优势?MongoDB力压Cassandra
求推荐database的软件 (转载)big data怎么搞定商业报表?
进入Programming版参与讨论
z****e
发帖数: 54598
31
mongo就是纯内存的hbase
nosql中的异类,通过把索引全部读入内存来提速
这是很荒谬的一种手段,也是随着系统增加,消耗资源逐步增加的玩意

【在 N*****m 的大作中提到】
: 是mongo不行
:
: 。

g*****g
发帖数: 34805
32
Real time accurate count is different from log aggregation, the latter has
neither real time requirement nor high consistency.
Cassandra takes a labor to implement a distributed count and still has
limitation, I wouldn't use it for accounting purpose.
http://www.datastax.com/wp-content/uploads/2011/07/cassandra_sf

doc

【在 s*********b 的大作中提到】
: 简单的distributed count再好实现不过了。凡是属于monoid的操作都是程序猿的好朋
: 友。也有现成的DB做这个。您老是Netflix的,可以到go/logsummary,或者go/rt-doc
: 体验一下。;-)
:
: a

b*******s
发帖数: 5216
33
但是快啊

【在 z****e 的大作中提到】
: mongo就是纯内存的hbase
: nosql中的异类,通过把索引全部读入内存来提速
: 这是很荒谬的一种手段,也是随着系统增加,消耗资源逐步增加的玩意

z****e
发帖数: 54598
34
db也不慢啊,我有那么大内存,我还需要nosql干嘛?

【在 b*******s 的大作中提到】
: 但是快啊
s*********b
发帖数: 815
35
嗯,需求不一样。不过那log summary不是简单的log aggregation,而是cube数据库的
一个应用,count小意思。数据库本身是够real-time了。不到一秒的延迟而已。

【在 g*****g 的大作中提到】
: Real time accurate count is different from log aggregation, the latter has
: neither real time requirement nor high consistency.
: Cassandra takes a labor to implement a distributed count and still has
: limitation, I wouldn't use it for accounting purpose.
: http://www.datastax.com/wp-content/uploads/2011/07/cassandra_sf
:
: doc

N********n
发帖数: 8363
36

If there's really "trillion" dollar to make then Yahoo would have made
it already. They've been using HADOOP since 2006, right? That's 7 years
in their hand to deliver. 7 years in tech world feels like a century.
If after 7 years they still earn far less than the other tech companies
then this HADOOP thing is not as useful as hyped.
Like I said it matters not how big a pile of data Hadoop is able to
store. If the data is worthless to begin w/ then there's no value to
mine from it. Useful data is usually structured.

【在 g*****g 的大作中提到】
: Saving is just one part of puzzle, extracting useful info out of it is
: another,
: that's why it's called big data analysis and Hadoop et al. is burning hot.
: Hype or not, there's money to be made and we are talking about trillion
: dollar
: business. Internet and smartphone were a hype too. Just a quote from your
: boss SB. I don't know how many times you need to be proven wrong until you
: can stop your bullshit.
: "Now we'll get a chance to go through this again in phones and music players
: . There's no chance that the iPhone is going to get any significant market

A******g
发帖数: 612
37
听起来还真有点道理...

【在 N********n 的大作中提到】
:
: If there's really "trillion" dollar to make then Yahoo would have made
: it already. They've been using HADOOP since 2006, right? That's 7 years
: in their hand to deliver. 7 years in tech world feels like a century.
: If after 7 years they still earn far less than the other tech companies
: then this HADOOP thing is not as useful as hyped.
: Like I said it matters not how big a pile of data Hadoop is able to
: store. If the data is worthless to begin w/ then there's no value to
: mine from it. Useful data is usually structured.

z****e
发帖数: 54598
38
其实big data不仅仅是big
有四个v要考虑
volume以外,有一个variety,无schema的数据是一个大特点
然后会引发velocity和veracity的问题
那么如何提高velocity和veracity就是下一步需要解决的
hadoop作为一个大的名词,没有太多意义
拆开,hbase作为一个存放数据的方式,其性能可以直接拿来比较各个db以及nosql产品
很多论据都证明,hbase性能强于其它db或者nosql产品
那么用hbase搞volume是合理的,下一步就是如何提速和提高精准度了
那这个可以有很多种方式解决,光依赖hadoop就指望解决所有问题
是懒汉的想法,实际上我都主张拆开大项目的components
然后根据实际情况自由组合使用
z****e
发帖数: 54598
39
hadoop和spring还有ejb一样
越来越成为一种概念,升华成一整套工具的集合名词
不能说用hadoop就解决所有问题
还需要人为介入,针对实际情况做具体分析
而不是盲目滴推给hadoop
这就是ecosystem
g*****g
发帖数: 34805
40
You have the users, then you have the data, then big data analysis gives you
extra values that couldn't be done. yahoo don't have the users to begin with
. trillion is the
amount for this industry. And company like Rocket fuel already ipo with 5b
valuation.

【在 N********n 的大作中提到】
:
: If there's really "trillion" dollar to make then Yahoo would have made
: it already. They've been using HADOOP since 2006, right? That's 7 years
: in their hand to deliver. 7 years in tech world feels like a century.
: If after 7 years they still earn far less than the other tech companies
: then this HADOOP thing is not as useful as hyped.
: Like I said it matters not how big a pile of data Hadoop is able to
: store. If the data is worthless to begin w/ then there's no value to
: mine from it. Useful data is usually structured.

相关主题
big data怎么搞定商业报表?奉劝一句那些动不动就谈架构的傻逼,谨言慎行
我的一个客户案例(high traffic),请大家批判分析指点系统无处不DB
古德霸啊古德霸,不打你脸是不行了有没有open source DB像greenplum那样同时支持RDBMS 和hadoop呢 (转载)
进入Programming版参与讨论
h*****a
发帖数: 1718
41
data有没有用也不是说出来的,要用科学的手段去分析。现在big internet companies
的big data是不是有用,有多有用,其实正是大数据这个领域所要figure out的。简单
下结论是不够的。

【在 N********n 的大作中提到】
:
: If there's really "trillion" dollar to make then Yahoo would have made
: it already. They've been using HADOOP since 2006, right? That's 7 years
: in their hand to deliver. 7 years in tech world feels like a century.
: If after 7 years they still earn far less than the other tech companies
: then this HADOOP thing is not as useful as hyped.
: Like I said it matters not how big a pile of data Hadoop is able to
: store. If the data is worthless to begin w/ then there's no value to
: mine from it. Useful data is usually structured.

l*******G
发帖数: 1191
42
BD is laughable compared to climate forecast data.
1 (共1页)
进入Programming版参与讨论
相关主题
一个关于big data 系统架构的设计问题我的一个客户案例(high traffic),请大家批判分析指点
请大牛来谈谈对Solr的看法古德霸啊古德霸,不打你脸是不行了
现在做手机网游,选什么数据库合适?奉劝一句那些动不动就谈架构的傻逼,谨言慎行
mongoDB跟传统关系数据库比有什么优势?系统无处不DB
求推荐database的软件 (转载)有没有open source DB像greenplum那样同时支持RDBMS 和hadoop呢 (转载)
问个弱智问题,有网站用nosql做primary db么?为了不至于谬种流传我还是回应一下吧
MongoDB力压Cassandra快速出app的MVP, 有什么推荐的框架和postgresql结合的比较好的么?
big data怎么搞定商业报表?A家一个system designe, 求大牛指点
相关话题的讨论汇总
话题: nosql话题: data话题: big话题: db话题: hadoop