w***g 发帖数: 5958 | 1 写了几个简化版的训练程序,以及nmist, cifar10的现成数据库用于玩耍。
imagenet 155G的数据我也downsize后用mozjpeg拼死压缩到了12G,就是
训练得用SSD。
https://github.com/aaalgo/picpac-demos
铁打的营盘流水的兵,数据把住了,框架随便换。 TF, mxnet, pytorch
都能支持。Lua/torch的binding也做了,不过估计也没人care了。
没玩过deep learning的同学,靠我这几个样例基本上也可以入门了。
CPU上train这两个dataset没啥问题。 |
g****t 发帖数: 31659 | |
x**********i 发帖数: 658 | 3 谢大牛指点
这两天在玩image net,您的名字赫然在列,膜拜
:写了几个简化版的训练程序,以及nmist, cifar10的现成数据库用于玩耍。
:imagenet 155G的数据我也downsize后用mozjpeg拼死压缩到了12G,就是 |
O***b 发帖数: 104 | 4 这个太赞了,生产力的源头啊。原来那个版本我就玩过
【在 w***g 的大作中提到】 : 写了几个简化版的训练程序,以及nmist, cifar10的现成数据库用于玩耍。 : imagenet 155G的数据我也downsize后用mozjpeg拼死压缩到了12G,就是 : 训练得用SSD。 : https://github.com/aaalgo/picpac-demos : 铁打的营盘流水的兵,数据把住了,框架随便换。 TF, mxnet, pytorch : 都能支持。Lua/torch的binding也做了,不过估计也没人care了。 : 没玩过deep learning的同学,靠我这几个样例基本上也可以入门了。 : CPU上train这两个dataset没啥问题。
|
w*****r 发帖数: 197 | 5 我昨天还真花了点时间调研了一下现在github上做data augmentation的工具
感觉Data augmentation越复杂,picpac的优势越明显。如果如果针对data
augmentation有个开放接口,就好了。
举个例子,我有一个人脸数据集,除了做简单的几何变形,我还想在pca space里对每
个sample的坐标做pertubation,如果便捷植入? |
w***g 发帖数: 5958 | 6 我设计得太generic了。
当时还有caffe和torch,所以觉得所有功能必须C++。
现在看来只剩python了,真要支持plugin的话,plugin也得是python写才行。
我自己的做法是不同类型的数据继承出一个新的项目。
目前还有picpac-wave用来做音频, picpac3d用来做3维CT数据。
【在 w*****r 的大作中提到】 : 我昨天还真花了点时间调研了一下现在github上做data augmentation的工具 : 感觉Data augmentation越复杂,picpac的优势越明显。如果如果针对data : augmentation有个开放接口,就好了。 : 举个例子,我有一个人脸数据集,除了做简单的几何变形,我还想在pca space里对每 : 个sample的坐标做pertubation,如果便捷植入?
|
g****t 发帖数: 31659 | 7 你可能需要琢磨下目标用户的人设?
然后软件和自己的开发时间,适当照顾主力用户需求。
有个帕累托原理,或者80-20原理。
80%用户是20%功能带来的。
但是微博这么杂乱的东西为何这两年
还死复生,我一直没看明白。所以我说的也不一定对。
另外在商言商,你要不去hack news发帖?第一行就说是
Imagnet之后的一大突破?
: 我设计得太generic了。
: 当时还有caffe和torch,所以觉得所有功能必须C 。
: 现在看来只剩python了,真要支持plugin的话,plugin也得是python写才
行。
: 我自己的做法是不同类型的数据继承出一个新的项目。
: 目前还有picpac-wave用来做音频, picpac3d用来做3维CT数据。
【在 w***g 的大作中提到】 : 我设计得太generic了。 : 当时还有caffe和torch,所以觉得所有功能必须C++。 : 现在看来只剩python了,真要支持plugin的话,plugin也得是python写才行。 : 我自己的做法是不同类型的数据继承出一个新的项目。 : 目前还有picpac-wave用来做音频, picpac3d用来做3维CT数据。
|
x****u 发帖数: 44466 | 8 微博是靠着职业编辑无底线制造假新闻
比如我一个男同学最近忙于工作,微博却天天转发高中生追星迷妹的话题,这就是官方
盗号
【在 g****t 的大作中提到】 : 你可能需要琢磨下目标用户的人设? : 然后软件和自己的开发时间,适当照顾主力用户需求。 : 有个帕累托原理,或者80-20原理。 : 80%用户是20%功能带来的。 : 但是微博这么杂乱的东西为何这两年 : 还死复生,我一直没看明白。所以我说的也不一定对。 : 另外在商言商,你要不去hack news发帖?第一行就说是 : Imagnet之后的一大突破? : : : 我设计得太generic了。
|
x****u 发帖数: 44466 | 9 训练用ssd是什么意思?为什么东西小了反而要ssd?
【在 w***g 的大作中提到】 : 写了几个简化版的训练程序,以及nmist, cifar10的现成数据库用于玩耍。 : imagenet 155G的数据我也downsize后用mozjpeg拼死压缩到了12G,就是 : 训练得用SSD。 : https://github.com/aaalgo/picpac-demos : 铁打的营盘流水的兵,数据把住了,框架随便换。 TF, mxnet, pytorch : 都能支持。Lua/torch的binding也做了,不过估计也没人care了。 : 没玩过deep learning的同学,靠我这几个样例基本上也可以入门了。 : CPU上train这两个dataset没啥问题。
|
L****8 发帖数: 3938 | 10 net = slim.batch_norm(slim.conv2d(net, 32, 3, 1))
net = slim.max_pool2d(net, 2, 2)
你把relu都给去掉了?
【在 w***g 的大作中提到】 : 写了几个简化版的训练程序,以及nmist, cifar10的现成数据库用于玩耍。 : imagenet 155G的数据我也downsize后用mozjpeg拼死压缩到了12G,就是 : 训练得用SSD。 : https://github.com/aaalgo/picpac-demos : 铁打的营盘流水的兵,数据把住了,框架随便换。 TF, mxnet, pytorch : 都能支持。Lua/torch的binding也做了,不过估计也没人care了。 : 没玩过deep learning的同学,靠我这几个样例基本上也可以入门了。 : CPU上train这两个dataset没啥问题。
|
|
|
w***g 发帖数: 5958 | 11 slim的conv2d自带relu。
【在 L****8 的大作中提到】 : net = slim.batch_norm(slim.conv2d(net, 32, 3, 1)) : net = slim.max_pool2d(net, 2, 2) : 你把relu都给去掉了?
|
w***g 发帖数: 5958 | 12 ssd是为了random seek。HDD没法seek。
ssd random I/O的速度基本上能保证GPU转满。
【在 x****u 的大作中提到】 : 训练用ssd是什么意思?为什么东西小了反而要ssd?
|
L****8 发帖数: 3938 | 13 我记得你以前说过relu没用来着
【在 w***g 的大作中提到】 : slim的conv2d自带relu。
|
w*****r 发帖数: 197 | 14 如果用ssd再组个raid0,没意义么?
【在 w***g 的大作中提到】 : ssd是为了random seek。HDD没法seek。 : ssd random I/O的速度基本上能保证GPU转满。
|
w***g 发帖数: 5958 | 15 Raid1更快,多个盘镜像提速。走pcie的m2盘比ssd又快不少,就是堆不了太多还占pcie
。估计cpu做augmentation会先到瓶颈。
:如果用ssd再组个raid0,没意义么?
: |
x****u 发帖数: 44466 | 16 SSD和大RAM当cache怎么选择啊?
如果在云vm上操作,RAM不用不收钱,但SSD的存储费也不低啊
【在 w***g 的大作中提到】 : ssd是为了random seek。HDD没法seek。 : ssd random I/O的速度基本上能保证GPU转满。
|
x****u 发帖数: 44466 | 17 深度学习模型的训练方法应该单独成为一个研究领域,研究在超参数固定优化算法固定
的时候怎么训练最终结果最好
数据无限且全部精确标记这个前提在地球上大部分时候都不成立啊。。。
【在 w***g 的大作中提到】 : 写了几个简化版的训练程序,以及nmist, cifar10的现成数据库用于玩耍。 : imagenet 155G的数据我也downsize后用mozjpeg拼死压缩到了12G,就是 : 训练得用SSD。 : https://github.com/aaalgo/picpac-demos : 铁打的营盘流水的兵,数据把住了,框架随便换。 TF, mxnet, pytorch : 都能支持。Lua/torch的binding也做了,不过估计也没人care了。 : 没玩过deep learning的同学,靠我这几个样例基本上也可以入门了。 : CPU上train这两个dataset没啥问题。
|
w***g 发帖数: 5958 | 18 云就是这个讨厌。什么都要拆散了算计。
可以平时存在HDD,训练前拷到SSD。
本来可以cache一半,另一半从SSD读,50% hit rate。
不过这么做也没太大意义了。SSD反正也够快。
【在 x****u 的大作中提到】 : SSD和大RAM当cache怎么选择啊? : 如果在云vm上操作,RAM不用不收钱,但SSD的存储费也不低啊
|
x****u 发帖数: 44466 | 19 想起另一个问题:有没有想过图像预处理上GPU?
如果图较多较大的话,用CPU算也是不经济的吧
【在 w***g 的大作中提到】 : 云就是这个讨厌。什么都要拆散了算计。 : 可以平时存在HDD,训练前拷到SSD。 : 本来可以cache一半,另一半从SSD读,50% hit rate。 : 不过这么做也没太大意义了。SSD反正也够快。
|