boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 请教数据存储问题
相关主题
请问:如何设计一个复杂数据类的存储文件格式
卷积这东西真神了
APP上的msg信息存储问题
怎样用Python选一部分数据出来
求教:matlab (转载)
vector
从java读取python输出的pytables
Time series big data大家觉得怎么存储比较好?
feifei li 也去google
CNN网络之后一般还要加FNN?
相关话题的讨论汇总
话题: 数据话题: 每条话题: 存储话题: 文件话题: 应用
进入Programming版参与讨论
1 (共1页)
g*******u
发帖数: 3948
1
我现在有 写数据 每条数据有个 大约2000个数字吧
有个一千万 数据?
我想问一下 那种存储方式比较高效? 现在用的比较多呢?
比如从 存储的空间, 具体用数据的方便度上 等等问题
他们 imagenet 都上亿数据吧? 都怎么存储和使用的 ?
谢谢
w***g
发帖数: 5958
2
每条数据算8k, 10M条,一共80G. 买个128G的SSD可以解决。每条数据存一个文件。小
儿科。
Imagenet就是存成文件的。当年我是他们sysadmin.
e*******o
发帖数: 4654
3
班门弄斧一下:
如果有查询需求,没有很多的同时写,sqlite  算是最简单了,否则posgresql。

【在 w***g 的大作中提到】
: 每条数据算8k, 10M条,一共80G. 买个128G的SSD可以解决。每条数据存一个文件。小
: 儿科。
: Imagenet就是存成文件的。当年我是他们sysadmin.

g*******u
发帖数: 3948
4
每条数据存一个文件? binary的? 不需要压缩一下?
一个一条 读起来会不会 来回读 费时间? 不搞笑?
我本来还想好多数据放一个表 存个hdf5? 似乎也没有意思对吧?
主要是, 一个一条读起来高效吗?
thx

【在 w***g 的大作中提到】
: 每条数据算8k, 10M条,一共80G. 买个128G的SSD可以解决。每条数据存一个文件。小
: 儿科。
: Imagenet就是存成文件的。当年我是他们sysadmin.

w***g
发帖数: 5958
5
你要给出应用场景,或许能再给点别的建议。
HDF5没意思。如果非要数据库,可以考虑leveldb。

【在 g*******u 的大作中提到】
: 每条数据存一个文件? binary的? 不需要压缩一下?
: 一个一条 读起来会不会 来回读 费时间? 不搞笑?
: 我本来还想好多数据放一个表 存个hdf5? 似乎也没有意思对吧?
: 主要是, 一个一条读起来高效吗?
: thx

g*******u
发帖数: 3948
6
我有两个应用 time series 数据
1 就是 固定长度的数据 我组织好用来做训练 。 比如每条1分钟之类的。 数据可能上
千万。每条数据倒不大。
2 就是时间序列很长 比如一个文件可能是1个月的数据, 一条数据有 可能60G之类的
, 可以比较方便的进行按某个时间段进行查询和截取 比如 需要 今天 10点到 11点
的数据
目前先侧重1 吧
感觉1,2 要采用不同的方法吧?
我也知道hdf5太老了 但是也不知道用别的啥
多谢

【在 w***g 的大作中提到】
: 你要给出应用场景,或许能再给点别的建议。
: HDF5没意思。如果非要数据库,可以考虑leveldb。

w***g
发帖数: 5958
7
哈哈我也正打算做这种应用。最近做了个picpac-wave, 可以做你第一种应用,不过估
计要改一下才行。第二种我目前也搞不定。上multi resolutuon吧。你确信一星期前的
数据还需要那么高的采样率吗?我觉得用神经网络,越老的数据时间粒度应该越粗。

:我有两个应用 time series 数据
:1 就是 固定长度的数据 我组织好用来做训练 。 比如每条1分钟之类的。 数据可能
上千万。每条数据倒不大。
g*******u
发帖数: 3948
8
我第一个应用吧。其实现在就是非常简单的随便存也行 因为数据量真不大。
只是想看看有没有更好玩的, 试试。直接存 太丑了有点。
只是我本身之前也不做这东西, 也不知道用什么工具啊,什么框架之类的。
第二个现在暂时没想法,感觉上量了也不太好弄。这个量有点大, 一个数据就60G 可
能每天有上千个这样的数据。 想想头大,先算了,不搞了。
问题不一样要求不一样吧我这个时间序列问题 一星期前和后没区别。所以不存在时间
阶段不重要的问题,只存在哪些数据时噪声 哪些不是有区别。
采样率 我的数据从1000hz到200hz都有 但是我觉得都下采样到100 或者200hz 也没有
区别
所以我会下采样到200吧先。
另外这个训练其实现在没找到更好的方法。 其实就是单独一小段数据做分类 然后连接
来 我觉得实际可能也行的。 当然没有什么lstm 之类的那么优美。
大牛觉得 facenet这个模型如何。 我打算用这个破模型做分类先。
我现在就是先用小段数据做分类,长时间的预测就把每小段的连接起来。
好处就是 我觉得会比较直接
不好地方就是没有太利用到时间上的信息, 模型很笨。
不过先这样开始, 先做个baseline吧。
不过我甚至觉得如果扣的洗点可能结果不一定模型好看的差多少呢。
picpac-wave 是什麽工具?我搜搜先
thx

【在 w***g 的大作中提到】
: 哈哈我也正打算做这种应用。最近做了个picpac-wave, 可以做你第一种应用,不过估
: 计要改一下才行。第二种我目前也搞不定。上multi resolutuon吧。你确信一星期前的
: 数据还需要那么高的采样率吗?我觉得用神经网络,越老的数据时间粒度应该越粗。
:
: :我有两个应用 time series 数据
: :1 就是 固定长度的数据 我组织好用来做训练 。 比如每条1分钟之类的。 数据可能
: 上千万。每条数据倒不大。

s*********y
发帖数: 6151
9
这点数据 随随便便就存了
要看你的周边环境是啥 啥语言 。考虑接口
方法多了
w***g
发帖数: 5958
10
有时候该手写工具还是要写的。

:我第一个应用吧。其实现在就是非常简单的随便存也行 因为数据量真不大。
:只是想看看有没有更好玩的, 试试。直接存 太丑了有点。
g*******u
发帖数: 3948
11
确实啊 随便存 就行了 确实是
这不是想顺便学点先进技术嘛,反正是要干活

【在 s*********y 的大作中提到】
: 这点数据 随随便便就存了
: 要看你的周边环境是啥 啥语言 。考虑接口
: 方法多了

g*******u
发帖数: 3948
12
可以写啊
问题是不知道写啥啊
大牛指点几个关键词?

【在 w***g 的大作中提到】
: 有时候该手写工具还是要写的。
:
: :我第一个应用吧。其实现在就是非常简单的随便存也行 因为数据量真不大。
: :只是想看看有没有更好玩的, 试试。直接存 太丑了有点。

w*****r
发帖数: 197
13
第二条我见过的一种做法是把60G的文件分成块,放在文件里(文件需要预分配),再
用一个in-memory database做索引

【在 g*******u 的大作中提到】
: 我有两个应用 time series 数据
: 1 就是 固定长度的数据 我组织好用来做训练 。 比如每条1分钟之类的。 数据可能上
: 千万。每条数据倒不大。
: 2 就是时间序列很长 比如一个文件可能是1个月的数据, 一条数据有 可能60G之类的
: , 可以比较方便的进行按某个时间段进行查询和截取 比如 需要 今天 10点到 11点
: 的数据
: 目前先侧重1 吧
: 感觉1,2 要采用不同的方法吧?
: 我也知道hdf5太老了 但是也不知道用别的啥
: 多谢

1 (共1页)
进入Programming版参与讨论
相关主题
CNN网络之后一般还要加FNN?
CNN transfer learning 为啥这么牛逼?
IBM 弄出个DDL,16天缩短到7小时,很暴力
Deepmind 的星际二挑战
deep learning现在还是冰山一角
hinton的胶囊本版什么评价
再来推广下picpac
[合集] Linux/Unix下时间的精度 (转载)
如果给随即函数rand[1,5] 如何产生rand[1,7] (转载)
魏老师的方案
相关话题的讨论汇总
话题: 数据话题: 每条话题: 存储话题: 文件话题: 应用