g*******u 发帖数: 3948 | 1 我现在有 写数据 每条数据有个 大约2000个数字吧
有个一千万 数据?
我想问一下 那种存储方式比较高效? 现在用的比较多呢?
比如从 存储的空间, 具体用数据的方便度上 等等问题
他们 imagenet 都上亿数据吧? 都怎么存储和使用的 ?
谢谢 |
w***g 发帖数: 5958 | 2 每条数据算8k, 10M条,一共80G. 买个128G的SSD可以解决。每条数据存一个文件。小
儿科。
Imagenet就是存成文件的。当年我是他们sysadmin. |
e*******o 发帖数: 4654 | 3 班门弄斧一下:
如果有查询需求,没有很多的同时写,sqlite 算是最简单了,否则posgresql。
【在 w***g 的大作中提到】 : 每条数据算8k, 10M条,一共80G. 买个128G的SSD可以解决。每条数据存一个文件。小 : 儿科。 : Imagenet就是存成文件的。当年我是他们sysadmin.
|
g*******u 发帖数: 3948 | 4 每条数据存一个文件? binary的? 不需要压缩一下?
一个一条 读起来会不会 来回读 费时间? 不搞笑?
我本来还想好多数据放一个表 存个hdf5? 似乎也没有意思对吧?
主要是, 一个一条读起来高效吗?
thx
【在 w***g 的大作中提到】 : 每条数据算8k, 10M条,一共80G. 买个128G的SSD可以解决。每条数据存一个文件。小 : 儿科。 : Imagenet就是存成文件的。当年我是他们sysadmin.
|
w***g 发帖数: 5958 | 5 你要给出应用场景,或许能再给点别的建议。
HDF5没意思。如果非要数据库,可以考虑leveldb。
【在 g*******u 的大作中提到】 : 每条数据存一个文件? binary的? 不需要压缩一下? : 一个一条 读起来会不会 来回读 费时间? 不搞笑? : 我本来还想好多数据放一个表 存个hdf5? 似乎也没有意思对吧? : 主要是, 一个一条读起来高效吗? : thx
|
g*******u 发帖数: 3948 | 6 我有两个应用 time series 数据
1 就是 固定长度的数据 我组织好用来做训练 。 比如每条1分钟之类的。 数据可能上
千万。每条数据倒不大。
2 就是时间序列很长 比如一个文件可能是1个月的数据, 一条数据有 可能60G之类的
, 可以比较方便的进行按某个时间段进行查询和截取 比如 需要 今天 10点到 11点
的数据
目前先侧重1 吧
感觉1,2 要采用不同的方法吧?
我也知道hdf5太老了 但是也不知道用别的啥
多谢
【在 w***g 的大作中提到】 : 你要给出应用场景,或许能再给点别的建议。 : HDF5没意思。如果非要数据库,可以考虑leveldb。
|
w***g 发帖数: 5958 | 7 哈哈我也正打算做这种应用。最近做了个picpac-wave, 可以做你第一种应用,不过估
计要改一下才行。第二种我目前也搞不定。上multi resolutuon吧。你确信一星期前的
数据还需要那么高的采样率吗?我觉得用神经网络,越老的数据时间粒度应该越粗。
:我有两个应用 time series 数据
:1 就是 固定长度的数据 我组织好用来做训练 。 比如每条1分钟之类的。 数据可能
上千万。每条数据倒不大。 |
g*******u 发帖数: 3948 | 8 我第一个应用吧。其实现在就是非常简单的随便存也行 因为数据量真不大。
只是想看看有没有更好玩的, 试试。直接存 太丑了有点。
只是我本身之前也不做这东西, 也不知道用什么工具啊,什么框架之类的。
第二个现在暂时没想法,感觉上量了也不太好弄。这个量有点大, 一个数据就60G 可
能每天有上千个这样的数据。 想想头大,先算了,不搞了。
问题不一样要求不一样吧我这个时间序列问题 一星期前和后没区别。所以不存在时间
阶段不重要的问题,只存在哪些数据时噪声 哪些不是有区别。
采样率 我的数据从1000hz到200hz都有 但是我觉得都下采样到100 或者200hz 也没有
区别
所以我会下采样到200吧先。
另外这个训练其实现在没找到更好的方法。 其实就是单独一小段数据做分类 然后连接
来 我觉得实际可能也行的。 当然没有什么lstm 之类的那么优美。
大牛觉得 facenet这个模型如何。 我打算用这个破模型做分类先。
我现在就是先用小段数据做分类,长时间的预测就把每小段的连接起来。
好处就是 我觉得会比较直接
不好地方就是没有太利用到时间上的信息, 模型很笨。
不过先这样开始, 先做个baseline吧。
不过我甚至觉得如果扣的洗点可能结果不一定模型好看的差多少呢。
picpac-wave 是什麽工具?我搜搜先
thx
【在 w***g 的大作中提到】 : 哈哈我也正打算做这种应用。最近做了个picpac-wave, 可以做你第一种应用,不过估 : 计要改一下才行。第二种我目前也搞不定。上multi resolutuon吧。你确信一星期前的 : 数据还需要那么高的采样率吗?我觉得用神经网络,越老的数据时间粒度应该越粗。 : : :我有两个应用 time series 数据 : :1 就是 固定长度的数据 我组织好用来做训练 。 比如每条1分钟之类的。 数据可能 : 上千万。每条数据倒不大。
|
s*********y 发帖数: 6151 | 9 这点数据 随随便便就存了
要看你的周边环境是啥 啥语言 。考虑接口
方法多了 |
w***g 发帖数: 5958 | 10 有时候该手写工具还是要写的。
:我第一个应用吧。其实现在就是非常简单的随便存也行 因为数据量真不大。
:只是想看看有没有更好玩的, 试试。直接存 太丑了有点。 |
g*******u 发帖数: 3948 | 11 确实啊 随便存 就行了 确实是
这不是想顺便学点先进技术嘛,反正是要干活
【在 s*********y 的大作中提到】 : 这点数据 随随便便就存了 : 要看你的周边环境是啥 啥语言 。考虑接口 : 方法多了
|
g*******u 发帖数: 3948 | 12 可以写啊
问题是不知道写啥啊
大牛指点几个关键词?
【在 w***g 的大作中提到】 : 有时候该手写工具还是要写的。 : : :我第一个应用吧。其实现在就是非常简单的随便存也行 因为数据量真不大。 : :只是想看看有没有更好玩的, 试试。直接存 太丑了有点。
|
w*****r 发帖数: 197 | 13 第二条我见过的一种做法是把60G的文件分成块,放在文件里(文件需要预分配),再
用一个in-memory database做索引
【在 g*******u 的大作中提到】 : 我有两个应用 time series 数据 : 1 就是 固定长度的数据 我组织好用来做训练 。 比如每条1分钟之类的。 数据可能上 : 千万。每条数据倒不大。 : 2 就是时间序列很长 比如一个文件可能是1个月的数据, 一条数据有 可能60G之类的 : , 可以比较方便的进行按某个时间段进行查询和截取 比如 需要 今天 10点到 11点 : 的数据 : 目前先侧重1 吧 : 感觉1,2 要采用不同的方法吧? : 我也知道hdf5太老了 但是也不知道用别的啥 : 多谢
|