b****u 发帖数: 1130 | 1 这个版人多,所以发在这。
最近给公司搭了一个数据仓库,用Redshift。 查询和插入效率都很好。但本质还是一
个数据库。
现在的问题是,如果要做一些深入的统计和计算,那么仍然要把大量的数据导出来,放
到内存中做并行计算。这样我就可能会用spark,这样还不如直接用spark做数据库算了
。不知道有没有人这方面的经验和建议。 |
f*********i 发帖数: 197 | 2 你的数据量有多大。
我们之前用redshift,join4个table, 每个table在500GB到1TB之间,50分钟内结果也
出来了,用的是12个redshift node。
我个人的体验,不知道对不对,和vertica相比,redshift在单个数据的增删改查上比
较慢,但是在大数据的情况下效率会高点。 |
b****u 发帖数: 1130 | 3 要对很多时间序列数据做各种统计分析,特别是相关性分析,所以必须把数据导入内存
以后做计算。 |
j*******n 发帖数: 48 | 4 Redshift 马上要支持Python 用户定义方程了,到时就不一定要把数据提出来分析了。
【在 b****u 的大作中提到】 : 要对很多时间序列数据做各种统计分析,特别是相关性分析,所以必须把数据导入内存 : 以后做计算。
|
k******a 发帖数: 44 | 5 redshift 支持大规模数据。但是要使用传统的rdbms的关系型查询,效率不会好。如果
两个或者多个tables都很大,然后做Join, 总数据量访问量太大。
redshift不是为这种复杂join查询设计的。
如果需要复杂计算,建议先把复杂计算分解为适合redshift的若干简单查询,对于简单
查询的结果,使用程序进行汇总分析。 |
l*n 发帖数: 529 | 6 http://cacm.acm.org/magazines/2010/1/55743-mapreduce-and-parall
太复杂的分析dbms做不了,只能上spark。
【在 b****u 的大作中提到】 : 这个版人多,所以发在这。 : 最近给公司搭了一个数据仓库,用Redshift。 查询和插入效率都很好。但本质还是一 : 个数据库。 : 现在的问题是,如果要做一些深入的统计和计算,那么仍然要把大量的数据导出来,放 : 到内存中做并行计算。这样我就可能会用spark,这样还不如直接用spark做数据库算了 : 。不知道有没有人这方面的经验和建议。
|