l**d 发帖数: 746 | 1 我一直不太清楚Amazon EC2之类的是怎么提供服务的。比如我看网上说很多小公司用
ec2 + nosql 的解决方案,那数据是放在他们的cloud里?如果我每天采集的数据都很
大,这个传输时间不会很长么?然后analytics的结果再传回来? |
g*****g 发帖数: 34805 | 2 You would want to have the data archived there in the first place.
Like running your app in the cloud.
【在 l**d 的大作中提到】 : 我一直不太清楚Amazon EC2之类的是怎么提供服务的。比如我看网上说很多小公司用 : ec2 + nosql 的解决方案,那数据是放在他们的cloud里?如果我每天采集的数据都很 : 大,这个传输时间不会很长么?然后analytics的结果再传回来?
|
l**d 发帖数: 746 | 3 那就是说这个只能用于存储和offline analysis?
如果我每天有大量的新数据就不适合了?
【在 g*****g 的大作中提到】 : You would want to have the data archived there in the first place. : Like running your app in the cloud.
|
g*****g 发帖数: 34805 | 4 可以收集的应用就跑在云上
【在 l**d 的大作中提到】 : 那就是说这个只能用于存储和offline analysis? : 如果我每天有大量的新数据就不适合了?
|
l**d 发帖数: 746 | 5 我还是不太明白,云不是在远程么?如果我每天收集的数据很多,那这个delay不是很
大?如果数据太大,带宽都是问题吧?
【在 g*****g 的大作中提到】 : 可以收集的应用就跑在云上
|
o***i 发帖数: 603 | 6 都在云上有多大的delay?难不成你要把数据下载到本地做分析的?不然没有什么远程不
远程的问题呀
【在 l**d 的大作中提到】 : 我还是不太明白,云不是在远程么?如果我每天收集的数据很多,那这个delay不是很 : 大?如果数据太大,带宽都是问题吧?
|
g*****g 发帖数: 34805 | 7 How do you collect your data? If you collect your data using your cloud
application, or sync while you collect, I don't see how bandwidth is a
problem.
【在 l**d 的大作中提到】 : 我还是不太明白,云不是在远程么?如果我每天收集的数据很多,那这个delay不是很 : 大?如果数据太大,带宽都是问题吧?
|
l**d 发帖数: 746 | 8 多谢回复!我们现在还在架构阶段,大概是从骨干网路由器直接取数据(说实话我也不
知道具体怎么弄,专门有team负责)。我们主要考虑后台的DB架构。我就是听说NoSQL
+ EC2是个很safe的解决方案。但是不知道如果realtime 数据量很大,往EC2这种
remote cloud里面传不是很慢么?还是说我应该有个local MySQL或者 NoSQL cluster
先把数据clean一下,再送到EC2做分析?
【在 g*****g 的大作中提到】 : How do you collect your data? If you collect your data using your cloud : application, or sync while you collect, I don't see how bandwidth is a : problem.
|
w**z 发帖数: 8232 | 9 你用ec2有啥好处?一天花多少时间process ? 数据要保存吗?
NoSQL
cluster
【在 l**d 的大作中提到】 : 多谢回复!我们现在还在架构阶段,大概是从骨干网路由器直接取数据(说实话我也不 : 知道具体怎么弄,专门有team负责)。我们主要考虑后台的DB架构。我就是听说NoSQL : + EC2是个很safe的解决方案。但是不知道如果realtime 数据量很大,往EC2这种 : remote cloud里面传不是很慢么?还是说我应该有个local MySQL或者 NoSQL cluster : 先把数据clean一下,再送到EC2做分析?
|
l**d 发帖数: 746 | 10 ec2优点是不是比较稳定阿,容易scale,价钱貌似也不贵。
我们现在还不知道要多少时间process数据,但是数据肯定要保存的。我们现在还在比
较各种option阶段。现在各种选择太多了,很难make decision阿。
【在 w**z 的大作中提到】 : 你用ec2有啥好处?一天花多少时间process ? 数据要保存吗? : : NoSQL : cluster
|
|
|
r*******k 发帖数: 44 | 11 ec2 特点:
- elastic: easy to scale up and down, 如果你无法预料你的短期resource
utilization, 可以考虑ec2. 比较好的例子是早期 instagram,pinterest。很多公司
,如pinterest hadoop 现在还跑在ec2上,他们自己承认性能肯定好不了了,just
works.
- 贵:有人计算过(2-3年前的hadoop summit)同运营自己的DC 相比,可能贵40%。对
startup有很大的好处,初期成本较小。如果你要长期跑100 m1.xlarge, 应该不便宜。
- 性能会比较差:share hardware resource with other vm if it's not on
dedicated hardware; share network infrastructure with other application (
noisy neighbors) |
c****e 发帖数: 1453 | 12 如果数据量非常大, 先在本地做一些cleanup和aggregation.可以自己搭db cluster.
根据数据和读写pattern, mongodb, Cassandra, hbase都考察一下。
public cloud对于serving非常有利。如果你的客户很多,可以把一些aggregated data
每个小时传上去,客户看看dashboard就可以了。如果需要drill down, 再redirect到
local.
NoSQL
cluster
【在 l**d 的大作中提到】 : 多谢回复!我们现在还在架构阶段,大概是从骨干网路由器直接取数据(说实话我也不 : 知道具体怎么弄,专门有team负责)。我们主要考虑后台的DB架构。我就是听说NoSQL : + EC2是个很safe的解决方案。但是不知道如果realtime 数据量很大,往EC2这种 : remote cloud里面传不是很慢么?还是说我应该有个local MySQL或者 NoSQL cluster : 先把数据clean一下,再送到EC2做分析?
|
r*******k 发帖数: 44 | 13 从你的描述来看,你们似乎才到刚刚听说这些popular words 的阶段。:)
如果你只用做数据分析,不需要NoSQL。任何nosql 的use case 都是ad-hoc query, or
scan。你需要一个很强烈的理由来说服自己用一个nosql,比如fb 说自己需要support
huge write,所以他们用hbase, etc
负责任的告诉你,这是个很不靠谱的建议。there are tons of nosql, and each of
them are quite different.
你们需要的是了解这些工具的特点,看他们是否可以帮助解决你们的问题(data
collection/transfer? realtime processing? batch processing? how to query? )
。想好了这些问题,service 放在ec2 or softlayer or Azure or 你家车库都不是问
题。
NoSQL
cluster |
g*****g 发帖数: 34805 | 14 If your data is not very relational, EC2 + Cassandra is quite a safe bet.
Cassandra is a beast on write/read linear scalability. And you can certainly
unload your data in realtime. The major benefit is that you can easily
scale to a cluster of hundreds of nodes for you Cassandra cluster, if you
need that much high availability. Today, only the likes of Google, Facebook
cannot be hosted on EC2. |
l**d 发帖数: 746 | 15 谢谢各位热心的回答!我以前是做传统RDBMS的,对NoSQL的确不是很熟,就是业余时间
看过一些皮毛,而且现在产品这么多差别这么大,我想找一个学的深点都不知道该从哪
儿学起。但是现在公司想开发一个新产品,让我做先帮忙看看架构方面要注意的东西,
我只好也就赶鸭子上架了,也希望给自己一个机会学些新东西吧。 |
b******y 发帖数: 9224 | 16 nosql其实说白了,底层就是类似于lucene那样的flat file structure. 我读过全部的
lucene的源程序,而且也自己编写了自己的search library. 感觉,存储数据来说,
relational database相当好,没必要改了。
但搜索查询数据来说,类似搜索引擎的软件还是非常powerful的。比如说,我们公司
multi-million dollars的电商平台是我搭建的,就是用的搜索技术,而不是
relational database.
亚麻等也一样。网络公司做到最后,就是一个如何处理大容量数据的问题。各种NoSQL
数据库的速度是不可比拟的。但是牺牲了很多transactional方面的稳定性和灵活性。
Anyway, 都是tade off. 小公司如果是做大容量数据处理的,可以考虑NoSql, 否则传
统数据库足够了。 |
c****f 发帖数: 1102 | 17 你这种情况 为什么要EC2. 完全不明白
如果你收集数据的程序可以迁到EC2上 那么就用EC2 因为一套全是ec2容易管理
如果你要本地收集数据 做cleanup 再传去EC2做计算 完全没必要去EC2 自己做一套系
统比EC2好多了 也快很多 喜欢虚拟化就塔openstack |
w**z 发帖数: 8232 | 18 nosql 有很多种,每个都有优劣。需要看你的具体情况。
NoSQL
【在 b******y 的大作中提到】 : nosql其实说白了,底层就是类似于lucene那样的flat file structure. 我读过全部的 : lucene的源程序,而且也自己编写了自己的search library. 感觉,存储数据来说, : relational database相当好,没必要改了。 : 但搜索查询数据来说,类似搜索引擎的软件还是非常powerful的。比如说,我们公司 : multi-million dollars的电商平台是我搭建的,就是用的搜索技术,而不是 : relational database. : 亚麻等也一样。网络公司做到最后,就是一个如何处理大容量数据的问题。各种NoSQL : 数据库的速度是不可比拟的。但是牺牲了很多transactional方面的稳定性和灵活性。 : Anyway, 都是tade off. 小公司如果是做大容量数据处理的,可以考虑NoSql, 否则传 : 统数据库足够了。
|
f*******t 发帖数: 7549 | |
l**b 发帖数: 457 | 20 用啥RMDB啊,用啥NoSQL啊,直接上ElasticSearch!!!!! |
w**z 发帖数: 8232 | 21 这个世界不只是有search.
【在 l**b 的大作中提到】 : 用啥RMDB啊,用啥NoSQL啊,直接上ElasticSearch!!!!!
|