boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 再来推广下picpac
相关主题
想上手deep learning的看过来
lua怎么样
请各位大牛评论一下下面这个DL box性价比如何
Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlow
基本适合深度学习的笔记本laptop
分布式计算 大数据啥的 我咋觉得是倒退?
问个Python的问题
deep learning 的时候要把所有数据都读到内存里?
feifei li 也去google
CNN网络之后一般还要加FNN?
相关话题的讨论汇总
话题: ssd话题: picpac话题: 数据话题: net
进入Programming版参与讨论
1 (共1页)
w***g
发帖数: 5958
1
写了几个简化版的训练程序,以及nmist, cifar10的现成数据库用于玩耍。
imagenet 155G的数据我也downsize后用mozjpeg拼死压缩到了12G,就是
训练得用SSD。
https://github.com/aaalgo/picpac-demos
铁打的营盘流水的兵,数据把住了,框架随便换。 TF, mxnet, pytorch
都能支持。Lua/torch的binding也做了,不过估计也没人care了。
没玩过deep learning的同学,靠我这几个样例基本上也可以入门了。
CPU上train这两个dataset没啥问题。
g****t
发帖数: 31659
2
我回头匿名帮你宣传下。
x**********i
发帖数: 658
3
谢大牛指点
这两天在玩image net,您的名字赫然在列,膜拜

:写了几个简化版的训练程序,以及nmist, cifar10的现成数据库用于玩耍。
:imagenet 155G的数据我也downsize后用mozjpeg拼死压缩到了12G,就是
O***b
发帖数: 104
4
这个太赞了,生产力的源头啊。原来那个版本我就玩过

【在 w***g 的大作中提到】
: 写了几个简化版的训练程序,以及nmist, cifar10的现成数据库用于玩耍。
: imagenet 155G的数据我也downsize后用mozjpeg拼死压缩到了12G,就是
: 训练得用SSD。
: https://github.com/aaalgo/picpac-demos
: 铁打的营盘流水的兵,数据把住了,框架随便换。 TF, mxnet, pytorch
: 都能支持。Lua/torch的binding也做了,不过估计也没人care了。
: 没玩过deep learning的同学,靠我这几个样例基本上也可以入门了。
: CPU上train这两个dataset没啥问题。

w*****r
发帖数: 197
5
我昨天还真花了点时间调研了一下现在github上做data augmentation的工具
感觉Data augmentation越复杂,picpac的优势越明显。如果如果针对data
augmentation有个开放接口,就好了。
举个例子,我有一个人脸数据集,除了做简单的几何变形,我还想在pca space里对每
个sample的坐标做pertubation,如果便捷植入?
w***g
发帖数: 5958
6
我设计得太generic了。
当时还有caffe和torch,所以觉得所有功能必须C++。
现在看来只剩python了,真要支持plugin的话,plugin也得是python写才行。
我自己的做法是不同类型的数据继承出一个新的项目。
目前还有picpac-wave用来做音频, picpac3d用来做3维CT数据。

【在 w*****r 的大作中提到】
: 我昨天还真花了点时间调研了一下现在github上做data augmentation的工具
: 感觉Data augmentation越复杂,picpac的优势越明显。如果如果针对data
: augmentation有个开放接口,就好了。
: 举个例子,我有一个人脸数据集,除了做简单的几何变形,我还想在pca space里对每
: 个sample的坐标做pertubation,如果便捷植入?

g****t
发帖数: 31659
7
你可能需要琢磨下目标用户的人设?
然后软件和自己的开发时间,适当照顾主力用户需求。
有个帕累托原理,或者80-20原理。
80%用户是20%功能带来的。
但是微博这么杂乱的东西为何这两年
还死复生,我一直没看明白。所以我说的也不一定对。
另外在商言商,你要不去hack news发帖?第一行就说是
Imagnet之后的一大突破?


: 我设计得太generic了。

: 当时还有caffe和torch,所以觉得所有功能必须C 。

: 现在看来只剩python了,真要支持plugin的话,plugin也得是python写才
行。

: 我自己的做法是不同类型的数据继承出一个新的项目。

: 目前还有picpac-wave用来做音频, picpac3d用来做3维CT数据。



【在 w***g 的大作中提到】
: 我设计得太generic了。
: 当时还有caffe和torch,所以觉得所有功能必须C++。
: 现在看来只剩python了,真要支持plugin的话,plugin也得是python写才行。
: 我自己的做法是不同类型的数据继承出一个新的项目。
: 目前还有picpac-wave用来做音频, picpac3d用来做3维CT数据。

x****u
发帖数: 44466
8
微博是靠着职业编辑无底线制造假新闻
比如我一个男同学最近忙于工作,微博却天天转发高中生追星迷妹的话题,这就是官方
盗号

【在 g****t 的大作中提到】
: 你可能需要琢磨下目标用户的人设?
: 然后软件和自己的开发时间,适当照顾主力用户需求。
: 有个帕累托原理,或者80-20原理。
: 80%用户是20%功能带来的。
: 但是微博这么杂乱的东西为何这两年
: 还死复生,我一直没看明白。所以我说的也不一定对。
: 另外在商言商,你要不去hack news发帖?第一行就说是
: Imagnet之后的一大突破?
:
:
: 我设计得太generic了。

x****u
发帖数: 44466
9
训练用ssd是什么意思?为什么东西小了反而要ssd?

【在 w***g 的大作中提到】
: 写了几个简化版的训练程序,以及nmist, cifar10的现成数据库用于玩耍。
: imagenet 155G的数据我也downsize后用mozjpeg拼死压缩到了12G,就是
: 训练得用SSD。
: https://github.com/aaalgo/picpac-demos
: 铁打的营盘流水的兵,数据把住了,框架随便换。 TF, mxnet, pytorch
: 都能支持。Lua/torch的binding也做了,不过估计也没人care了。
: 没玩过deep learning的同学,靠我这几个样例基本上也可以入门了。
: CPU上train这两个dataset没啥问题。

L****8
发帖数: 3938
10
net = slim.batch_norm(slim.conv2d(net, 32, 3, 1))
net = slim.max_pool2d(net, 2, 2)
你把relu都给去掉了?

【在 w***g 的大作中提到】
: 写了几个简化版的训练程序,以及nmist, cifar10的现成数据库用于玩耍。
: imagenet 155G的数据我也downsize后用mozjpeg拼死压缩到了12G,就是
: 训练得用SSD。
: https://github.com/aaalgo/picpac-demos
: 铁打的营盘流水的兵,数据把住了,框架随便换。 TF, mxnet, pytorch
: 都能支持。Lua/torch的binding也做了,不过估计也没人care了。
: 没玩过deep learning的同学,靠我这几个样例基本上也可以入门了。
: CPU上train这两个dataset没啥问题。

相关主题
Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlow
基本适合深度学习的笔记本laptop
分布式计算 大数据啥的 我咋觉得是倒退?
问个Python的问题
进入Programming版参与讨论
w***g
发帖数: 5958
11
slim的conv2d自带relu。

【在 L****8 的大作中提到】
: net = slim.batch_norm(slim.conv2d(net, 32, 3, 1))
: net = slim.max_pool2d(net, 2, 2)
: 你把relu都给去掉了?

w***g
发帖数: 5958
12
ssd是为了random seek。HDD没法seek。
ssd random I/O的速度基本上能保证GPU转满。

【在 x****u 的大作中提到】
: 训练用ssd是什么意思?为什么东西小了反而要ssd?
L****8
发帖数: 3938
13
我记得你以前说过relu没用来着

【在 w***g 的大作中提到】
: slim的conv2d自带relu。
w*****r
发帖数: 197
14
如果用ssd再组个raid0,没意义么?

【在 w***g 的大作中提到】
: ssd是为了random seek。HDD没法seek。
: ssd random I/O的速度基本上能保证GPU转满。

w***g
发帖数: 5958
15
Raid1更快,多个盘镜像提速。走pcie的m2盘比ssd又快不少,就是堆不了太多还占pcie
。估计cpu做augmentation会先到瓶颈。

:如果用ssd再组个raid0,没意义么?
x****u
发帖数: 44466
16
SSD和大RAM当cache怎么选择啊?
如果在云vm上操作,RAM不用不收钱,但SSD的存储费也不低啊

【在 w***g 的大作中提到】
: ssd是为了random seek。HDD没法seek。
: ssd random I/O的速度基本上能保证GPU转满。

x****u
发帖数: 44466
17
深度学习模型的训练方法应该单独成为一个研究领域,研究在超参数固定优化算法固定
的时候怎么训练最终结果最好
数据无限且全部精确标记这个前提在地球上大部分时候都不成立啊。。。

【在 w***g 的大作中提到】
: 写了几个简化版的训练程序,以及nmist, cifar10的现成数据库用于玩耍。
: imagenet 155G的数据我也downsize后用mozjpeg拼死压缩到了12G,就是
: 训练得用SSD。
: https://github.com/aaalgo/picpac-demos
: 铁打的营盘流水的兵,数据把住了,框架随便换。 TF, mxnet, pytorch
: 都能支持。Lua/torch的binding也做了,不过估计也没人care了。
: 没玩过deep learning的同学,靠我这几个样例基本上也可以入门了。
: CPU上train这两个dataset没啥问题。

w***g
发帖数: 5958
18
云就是这个讨厌。什么都要拆散了算计。
可以平时存在HDD,训练前拷到SSD。
本来可以cache一半,另一半从SSD读,50% hit rate。
不过这么做也没太大意义了。SSD反正也够快。

【在 x****u 的大作中提到】
: SSD和大RAM当cache怎么选择啊?
: 如果在云vm上操作,RAM不用不收钱,但SSD的存储费也不低啊

x****u
发帖数: 44466
19
想起另一个问题:有没有想过图像预处理上GPU?
如果图较多较大的话,用CPU算也是不经济的吧

【在 w***g 的大作中提到】
: 云就是这个讨厌。什么都要拆散了算计。
: 可以平时存在HDD,训练前拷到SSD。
: 本来可以cache一半,另一半从SSD读,50% hit rate。
: 不过这么做也没太大意义了。SSD反正也够快。

1 (共1页)
进入Programming版参与讨论
相关主题
CNN网络之后一般还要加FNN?
卷积这东西真神了
CNN transfer learning 为啥这么牛逼?
IBM 弄出个DDL,16天缩短到7小时,很暴力
Deepmind 的星际二挑战
deep learning现在还是冰山一角
hinton的胶囊本版什么评价
请教数据存储问题
怎样把snoop的文本结果抽出来?
学了一圈lisp, haskell, ruby ,python, lua.发觉还是后两者比较有用
相关话题的讨论汇总
话题: ssd话题: picpac话题: 数据话题: net