由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Java版 - 请教个ec2 + nosql 的问题
相关主题
为啥RDBMS只用一个Index?听说这里big data大拿多, MongoDB和Cassandra,
云计算如何应用到传统的web server应用如果想去netflix的话,要做什么准备?
越来越讨厌relational database了现在的工作完全不用spring,hibernate,以后跳槽是不是会显得很弱?
c,java, 数据库内核,数据库应用BIgData对job market的影响?
问Zhaoce个问题需求建议,关于NOSQL
15 high-impact Apache projectsWierd issue with Cassandra
有没有大牛在搞cloud?-- 包子贴问个问题
如何读懂Java程序How is the Jboss AS performance?
相关话题的讨论汇总
话题: ec2话题: nosql话题: 数据话题: cassandra话题: cluster
进入Java版参与讨论
1 (共1页)
l**d
发帖数: 746
1
我一直不太清楚Amazon EC2之类的是怎么提供服务的。比如我看网上说很多小公司用
ec2 + nosql 的解决方案,那数据是放在他们的cloud里?如果我每天采集的数据都很
大,这个传输时间不会很长么?然后analytics的结果再传回来?
g*****g
发帖数: 34805
2
You would want to have the data archived there in the first place.
Like running your app in the cloud.

【在 l**d 的大作中提到】
: 我一直不太清楚Amazon EC2之类的是怎么提供服务的。比如我看网上说很多小公司用
: ec2 + nosql 的解决方案,那数据是放在他们的cloud里?如果我每天采集的数据都很
: 大,这个传输时间不会很长么?然后analytics的结果再传回来?

l**d
发帖数: 746
3
那就是说这个只能用于存储和offline analysis?
如果我每天有大量的新数据就不适合了?

【在 g*****g 的大作中提到】
: You would want to have the data archived there in the first place.
: Like running your app in the cloud.

g*****g
发帖数: 34805
4
可以收集的应用就跑在云上

【在 l**d 的大作中提到】
: 那就是说这个只能用于存储和offline analysis?
: 如果我每天有大量的新数据就不适合了?

l**d
发帖数: 746
5
我还是不太明白,云不是在远程么?如果我每天收集的数据很多,那这个delay不是很
大?如果数据太大,带宽都是问题吧?

【在 g*****g 的大作中提到】
: 可以收集的应用就跑在云上
o***i
发帖数: 603
6
都在云上有多大的delay?难不成你要把数据下载到本地做分析的?不然没有什么远程不
远程的问题呀

【在 l**d 的大作中提到】
: 我还是不太明白,云不是在远程么?如果我每天收集的数据很多,那这个delay不是很
: 大?如果数据太大,带宽都是问题吧?

g*****g
发帖数: 34805
7
How do you collect your data? If you collect your data using your cloud
application, or sync while you collect, I don't see how bandwidth is a
problem.

【在 l**d 的大作中提到】
: 我还是不太明白,云不是在远程么?如果我每天收集的数据很多,那这个delay不是很
: 大?如果数据太大,带宽都是问题吧?

l**d
发帖数: 746
8
多谢回复!我们现在还在架构阶段,大概是从骨干网路由器直接取数据(说实话我也不
知道具体怎么弄,专门有team负责)。我们主要考虑后台的DB架构。我就是听说NoSQL
+ EC2是个很safe的解决方案。但是不知道如果realtime 数据量很大,往EC2这种
remote cloud里面传不是很慢么?还是说我应该有个local MySQL或者 NoSQL cluster
先把数据clean一下,再送到EC2做分析?

【在 g*****g 的大作中提到】
: How do you collect your data? If you collect your data using your cloud
: application, or sync while you collect, I don't see how bandwidth is a
: problem.

w**z
发帖数: 8232
9
你用ec2有啥好处?一天花多少时间process ? 数据要保存吗?

NoSQL
cluster

【在 l**d 的大作中提到】
: 多谢回复!我们现在还在架构阶段,大概是从骨干网路由器直接取数据(说实话我也不
: 知道具体怎么弄,专门有team负责)。我们主要考虑后台的DB架构。我就是听说NoSQL
: + EC2是个很safe的解决方案。但是不知道如果realtime 数据量很大,往EC2这种
: remote cloud里面传不是很慢么?还是说我应该有个local MySQL或者 NoSQL cluster
: 先把数据clean一下,再送到EC2做分析?

l**d
发帖数: 746
10
ec2优点是不是比较稳定阿,容易scale,价钱貌似也不贵。
我们现在还不知道要多少时间process数据,但是数据肯定要保存的。我们现在还在比
较各种option阶段。现在各种选择太多了,很难make decision阿。

【在 w**z 的大作中提到】
: 你用ec2有啥好处?一天花多少时间process ? 数据要保存吗?
:
: NoSQL
: cluster

相关主题
15 high-impact Apache projects听说这里big data大拿多, MongoDB和Cassandra,
有没有大牛在搞cloud?-- 包子贴如果想去netflix的话,要做什么准备?
如何读懂Java程序现在的工作完全不用spring,hibernate,以后跳槽是不是会显得很弱?
进入Java版参与讨论
r*******k
发帖数: 44
11
ec2 特点:
- elastic: easy to scale up and down, 如果你无法预料你的短期resource
utilization, 可以考虑ec2. 比较好的例子是早期 instagram,pinterest。很多公司
,如pinterest hadoop 现在还跑在ec2上,他们自己承认性能肯定好不了了,just
works.
- 贵:有人计算过(2-3年前的hadoop summit)同运营自己的DC 相比,可能贵40%。对
startup有很大的好处,初期成本较小。如果你要长期跑100 m1.xlarge, 应该不便宜。
- 性能会比较差:share hardware resource with other vm if it's not on
dedicated hardware; share network infrastructure with other application (
noisy neighbors)
c****e
发帖数: 1453
12
如果数据量非常大, 先在本地做一些cleanup和aggregation.可以自己搭db cluster.
根据数据和读写pattern, mongodb, Cassandra, hbase都考察一下。
public cloud对于serving非常有利。如果你的客户很多,可以把一些aggregated data
每个小时传上去,客户看看dashboard就可以了。如果需要drill down, 再redirect到
local.

NoSQL
cluster

【在 l**d 的大作中提到】
: 多谢回复!我们现在还在架构阶段,大概是从骨干网路由器直接取数据(说实话我也不
: 知道具体怎么弄,专门有team负责)。我们主要考虑后台的DB架构。我就是听说NoSQL
: + EC2是个很safe的解决方案。但是不知道如果realtime 数据量很大,往EC2这种
: remote cloud里面传不是很慢么?还是说我应该有个local MySQL或者 NoSQL cluster
: 先把数据clean一下,再送到EC2做分析?

r*******k
发帖数: 44
13
从你的描述来看,你们似乎才到刚刚听说这些popular words 的阶段。:)
如果你只用做数据分析,不需要NoSQL。任何nosql 的use case 都是ad-hoc query, or
scan。你需要一个很强烈的理由来说服自己用一个nosql,比如fb 说自己需要support
huge write,所以他们用hbase, etc
负责任的告诉你,这是个很不靠谱的建议。there are tons of nosql, and each of
them are quite different.
你们需要的是了解这些工具的特点,看他们是否可以帮助解决你们的问题(data
collection/transfer? realtime processing? batch processing? how to query? )
。想好了这些问题,service 放在ec2 or softlayer or Azure or 你家车库都不是问
题。
NoSQL
cluster
g*****g
发帖数: 34805
14
If your data is not very relational, EC2 + Cassandra is quite a safe bet.
Cassandra is a beast on write/read linear scalability. And you can certainly
unload your data in realtime. The major benefit is that you can easily
scale to a cluster of hundreds of nodes for you Cassandra cluster, if you
need that much high availability. Today, only the likes of Google, Facebook
cannot be hosted on EC2.
l**d
发帖数: 746
15
谢谢各位热心的回答!我以前是做传统RDBMS的,对NoSQL的确不是很熟,就是业余时间
看过一些皮毛,而且现在产品这么多差别这么大,我想找一个学的深点都不知道该从哪
儿学起。但是现在公司想开发一个新产品,让我做先帮忙看看架构方面要注意的东西,
我只好也就赶鸭子上架了,也希望给自己一个机会学些新东西吧。
b******y
发帖数: 9224
16
nosql其实说白了,底层就是类似于lucene那样的flat file structure. 我读过全部的
lucene的源程序,而且也自己编写了自己的search library. 感觉,存储数据来说,
relational database相当好,没必要改了。
但搜索查询数据来说,类似搜索引擎的软件还是非常powerful的。比如说,我们公司
multi-million dollars的电商平台是我搭建的,就是用的搜索技术,而不是
relational database.
亚麻等也一样。网络公司做到最后,就是一个如何处理大容量数据的问题。各种NoSQL
数据库的速度是不可比拟的。但是牺牲了很多transactional方面的稳定性和灵活性。
Anyway, 都是tade off. 小公司如果是做大容量数据处理的,可以考虑NoSql, 否则传
统数据库足够了。
c****f
发帖数: 1102
17
你这种情况 为什么要EC2. 完全不明白
如果你收集数据的程序可以迁到EC2上 那么就用EC2 因为一套全是ec2容易管理
如果你要本地收集数据 做cleanup 再传去EC2做计算 完全没必要去EC2 自己做一套系
统比EC2好多了 也快很多 喜欢虚拟化就塔openstack
w**z
发帖数: 8232
18
nosql 有很多种,每个都有优劣。需要看你的具体情况。

NoSQL

【在 b******y 的大作中提到】
: nosql其实说白了,底层就是类似于lucene那样的flat file structure. 我读过全部的
: lucene的源程序,而且也自己编写了自己的search library. 感觉,存储数据来说,
: relational database相当好,没必要改了。
: 但搜索查询数据来说,类似搜索引擎的软件还是非常powerful的。比如说,我们公司
: multi-million dollars的电商平台是我搭建的,就是用的搜索技术,而不是
: relational database.
: 亚麻等也一样。网络公司做到最后,就是一个如何处理大容量数据的问题。各种NoSQL
: 数据库的速度是不可比拟的。但是牺牲了很多transactional方面的稳定性和灵活性。
: Anyway, 都是tade off. 小公司如果是做大容量数据处理的,可以考虑NoSql, 否则传
: 统数据库足够了。

f*******t
发帖数: 7549
l**b
发帖数: 457
20
用啥RMDB啊,用啥NoSQL啊,直接上ElasticSearch!!!!!
w**z
发帖数: 8232
21
这个世界不只是有search.

【在 l**b 的大作中提到】
: 用啥RMDB啊,用啥NoSQL啊,直接上ElasticSearch!!!!!
1 (共1页)
进入Java版参与讨论
相关主题
How is the Jboss AS performance?问Zhaoce个问题
Java questions 51-10015 high-impact Apache projects
Anybody here used apache Lucene?有没有大牛在搞cloud?-- 包子贴
急! 如何用eclipse编辑lucene如何读懂Java程序
为啥RDBMS只用一个Index?听说这里big data大拿多, MongoDB和Cassandra,
云计算如何应用到传统的web server应用如果想去netflix的话,要做什么准备?
越来越讨厌relational database了现在的工作完全不用spring,hibernate,以后跳槽是不是会显得很弱?
c,java, 数据库内核,数据库应用BIgData对job market的影响?
相关话题的讨论汇总
话题: ec2话题: nosql话题: 数据话题: cassandra话题: cluster