p*******e 发帖数: 125 | 1 Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(
一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不
过文件corrupted大多也可以重新load一次。这distributed file system对time
series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用
Hadoop spark处理这些数据。 |
x***4 发帖数: 1815 | 2 Druid
【在 p*******e 的大作中提到】 : Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段( : 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不 : 过文件corrupted大多也可以重新load一次。这distributed file system对time : series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用 : Hadoop spark处理这些数据。
|
p*******e 发帖数: 125 | 3 Druid和mongodb, Cassandra 之类的比有什么独到的优势?为什么它更适合time
series data.大牛展开说说
【在 x***4 的大作中提到】 : Druid
|
d*******r 发帖数: 3299 | 4 http://db-engines.com/en/ranking/time+series+dbms
【在 p*******e 的大作中提到】 : Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段( : 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不 : 过文件corrupted大多也可以重新load一次。这distributed file system对time : series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用 : Hadoop spark处理这些数据。
|
N*****m 发帖数: 42603 | 5 这几个都不太好用
街上用kdb的比较多
【在 p*******e 的大作中提到】 : Druid和mongodb, Cassandra 之类的比有什么独到的优势?为什么它更适合time : series data.大牛展开说说
|
p*******e 发帖数: 125 | 6 Kdb query language sucks. 还巨贵
【在 N*****m 的大作中提到】 : 这几个都不太好用 : 街上用kdb的比较多
|
N*****m 发帖数: 42603 | 7 贵是有道理的
【在 p*******e 的大作中提到】 : Kdb query language sucks. 还巨贵
|
p*******e 发帖数: 125 | |
p*******e 发帖数: 125 | 9 也许十年前可以justify它的价格。现在新project用它的很少听说,倒是onetick抢
了不少市场,虽然我觉得onetick也不怎么样
【在 N*****m 的大作中提到】 : 贵是有道理的
|
N*****m 发帖数: 42603 | 10 是的,现在好多新公司都在搞
你可以看看influxdb,不过集群版是收钱的
【在 p*******e 的大作中提到】 : 也许十年前可以justify它的价格。现在新project用它的很少听说,倒是onetick抢 : 了不少市场,虽然我觉得onetick也不怎么样
|
|
|
x***4 发帖数: 1815 | 11 你的用途是OLAP吗?
谁会consume这些data?用什么工具?spark, raw query, 还是BI tool?
【在 p*******e 的大作中提到】 : Druid和mongodb, Cassandra 之类的比有什么独到的优势?为什么它更适合time : series data.大牛展开说说
|
p*******e 发帖数: 125 | 12 用途可能很多是data mining,不需要real time response.感觉druid主要是precompute
query比较快。
【在 x***4 的大作中提到】 : 你的用途是OLAP吗? : 谁会consume这些data?用什么工具?spark, raw query, 还是BI tool?
|
l*********s 发帖数: 5409 | |
p*******e 发帖数: 125 | 14 It is shutting down.看起来没人支持了
【在 l*********s 的大作中提到】 : rethink db 怎么样?
|
x***4 发帖数: 1815 | 15 那就先放进spark吧。用parquet。spark大路货,以后应用明确之后倒来倒去也方便。
infra的东西,用的人多非常重要,尽量不要用小众的,免费帮人qa。
precompute
【在 p*******e 的大作中提到】 : 用途可能很多是data mining,不需要real time response.感觉druid主要是precompute : query比较快。
|
l******n 发帖数: 9344 | 16 关键看你要做啥,存储hdfs没有问题,如果你要做实时处理或者ad-hoc query就不行,
得用in-memory database.
【在 p*******e 的大作中提到】 : Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段( : 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不 : 过文件corrupted大多也可以重新load一次。这distributed file system对time : series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用 : Hadoop spark处理这些数据。
|
w**z 发帖数: 8232 | 17 time series data, 适合用 Cassandra
【在 p*******e 的大作中提到】 : Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段( : 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不 : 过文件corrupted大多也可以重新load一次。这distributed file system对time : series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用 : Hadoop spark处理这些数据。
|
p*******e 发帖数: 125 | 18 是的。尽量用成熟的东西,不然到处是陷阱,开源很多这样。
【在 x***4 的大作中提到】 : 那就先放进spark吧。用parquet。spark大路货,以后应用明确之后倒来倒去也方便。 : infra的东西,用的人多非常重要,尽量不要用小众的,免费帮人qa。 : : precompute
|
p*******e 发帖数: 125 | 19 能说说为什么Cassandra 适合吗?
【在 w**z 的大作中提到】 : time series data, 适合用 Cassandra
|
N*****m 发帖数: 42603 | 20 其实不太适用
【在 w**z 的大作中提到】 : time series data, 适合用 Cassandra
|
|
|
x***4 发帖数: 1815 | 21 我觉得c不一定合适。不如说你想query某一个时间interval的数据,c就是不是很
efficient。
【在 p*******e 的大作中提到】 : 能说说为什么Cassandra 适合吗?
|
w**z 发帖数: 8232 | |
N*****m 发帖数: 42603 | 23 这是比较简单的use-case,KarioDB这些都是基于cassandra
首先,cassandra的wide-column的时间精度不够,不适用楼主说的tick data;其次效
率比较差;然后自带的functionalities不行,得有二次开发,所以有了kariodb这些
【在 w**z 的大作中提到】 : Cassandra 的卖点之一就是 time series data : http://academy.datastax.com/resources/getting-started-time-series-data-modeling : https://www.datastax.com/dev/blog/advanced-time-series-data-modelling
|