再来推广下picpac - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 再来推广下picpac

相关主题
● 想上手deep learning的看过来
● lua怎么样
● 请各位大牛评论一下下面这个DL box性价比如何
● Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlow
● 基本适合深度学习的笔记本laptop
● 分布式计算大数据啥的我咋觉得是倒退？
● 问个Python的问题
● deep learning 的时候要把所有数据都读到内存里？
● feifei li 也去google
● CNN网络之后一般还要加FNN？

相关话题的讨论汇总
话题: ssd话题: picpac话题: 数据话题: net

进入Programming版参与讨论

(共1页)

w***g
发帖数: 5958

写了几个简化版的训练程序，以及nmist, cifar10的现成数据库用于玩耍。
imagenet 155G的数据我也downsize后用mozjpeg拼死压缩到了12G，就是
训练得用SSD。
https://github.com/aaalgo/picpac-demos
铁打的营盘流水的兵，数据把住了，框架随便换。 TF, mxnet, pytorch
都能支持。Lua/torch的binding也做了，不过估计也没人care了。
没玩过deep learning的同学，靠我这几个样例基本上也可以入门了。
CPU上train这两个dataset没啥问题。

g****t
发帖数: 31659

我回头匿名帮你宣传下。

x**********i
发帖数: 658

谢大牛指点
这两天在玩image net，您的名字赫然在列，膜拜

：写了几个简化版的训练程序，以及nmist, cifar10的现成数据库用于玩耍。
：imagenet 155G的数据我也downsize后用mozjpeg拼死压缩到了12G，就是

O***b
发帖数: 104

这个太赞了，生产力的源头啊。原来那个版本我就玩过

【在 w***g 的大作中提到】

: 写了几个简化版的训练程序，以及nmist, cifar10的现成数据库用于玩耍。
: imagenet 155G的数据我也downsize后用mozjpeg拼死压缩到了12G，就是
: 训练得用SSD。
: https://github.com/aaalgo/picpac-demos
: 铁打的营盘流水的兵，数据把住了，框架随便换。 TF, mxnet, pytorch
: 都能支持。Lua/torch的binding也做了，不过估计也没人care了。
: 没玩过deep learning的同学，靠我这几个样例基本上也可以入门了。
: CPU上train这两个dataset没啥问题。

w*****r
发帖数: 197

我昨天还真花了点时间调研了一下现在github上做data augmentation的工具
感觉Data augmentation越复杂，picpac的优势越明显。如果如果针对data
augmentation有个开放接口，就好了。
举个例子，我有一个人脸数据集，除了做简单的几何变形，我还想在pca space里对每
个sample的坐标做pertubation，如果便捷植入？

w***g
发帖数: 5958

我设计得太generic了。
当时还有caffe和torch，所以觉得所有功能必须C++。
现在看来只剩python了，真要支持plugin的话，plugin也得是python写才行。
我自己的做法是不同类型的数据继承出一个新的项目。
目前还有picpac-wave用来做音频， picpac3d用来做3维CT数据。

【在 w*****r 的大作中提到】

: 我昨天还真花了点时间调研了一下现在github上做data augmentation的工具
: 感觉Data augmentation越复杂，picpac的优势越明显。如果如果针对data
: augmentation有个开放接口，就好了。
: 举个例子，我有一个人脸数据集，除了做简单的几何变形，我还想在pca space里对每
: 个sample的坐标做pertubation，如果便捷植入？

g****t
发帖数: 31659

你可能需要琢磨下目标用户的人设？
然后软件和自己的开发时间，适当照顾主力用户需求。
有个帕累托原理，或者80-20原理。
80%用户是20%功能带来的。
但是微博这么杂乱的东西为何这两年
还死复生，我一直没看明白。所以我说的也不一定对。
另外在商言商，你要不去hack news发帖？第一行就说是
Imagnet之后的一大突破？

: 我设计得太generic了。

: 当时还有caffe和torch，所以觉得所有功能必须C 。

: 现在看来只剩python了，真要支持plugin的话，plugin也得是python写才
行。

: 我自己的做法是不同类型的数据继承出一个新的项目。

: 目前还有picpac-wave用来做音频， picpac3d用来做3维CT数据。

【在 w***g 的大作中提到】

: 我设计得太generic了。
: 当时还有caffe和torch，所以觉得所有功能必须C++。
: 现在看来只剩python了，真要支持plugin的话，plugin也得是python写才行。
: 我自己的做法是不同类型的数据继承出一个新的项目。
: 目前还有picpac-wave用来做音频， picpac3d用来做3维CT数据。

x****u
发帖数: 44466

微博是靠着职业编辑无底线制造假新闻
比如我一个男同学最近忙于工作，微博却天天转发高中生追星迷妹的话题，这就是官方
盗号

【在 g****t 的大作中提到】

: 你可能需要琢磨下目标用户的人设？
: 然后软件和自己的开发时间，适当照顾主力用户需求。
: 有个帕累托原理，或者80-20原理。
: 80%用户是20%功能带来的。
: 但是微博这么杂乱的东西为何这两年
: 还死复生，我一直没看明白。所以我说的也不一定对。
: 另外在商言商，你要不去hack news发帖？第一行就说是
: Imagnet之后的一大突破？
:
:
: 我设计得太generic了。

x****u
发帖数: 44466

训练用ssd是什么意思？为什么东西小了反而要ssd？

【在 w***g 的大作中提到】

L****8
发帖数: 3938

net = slim.batch_norm(slim.conv2d(net, 32, 3, 1))
net = slim.max_pool2d(net, 2, 2)
你把relu都给去掉了？

【在 w***g 的大作中提到】

相关主题
● Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlow
● 基本适合深度学习的笔记本laptop
● 分布式计算大数据啥的我咋觉得是倒退？
● 问个Python的问题
进入Programming版参与讨论

w***g
发帖数: 5958

slim的conv2d自带relu。

【在 L****8 的大作中提到】

: net = slim.batch_norm(slim.conv2d(net, 32, 3, 1))
: net = slim.max_pool2d(net, 2, 2)
: 你把relu都给去掉了？

w***g
发帖数: 5958

ssd是为了random seek。HDD没法seek。
ssd random I/O的速度基本上能保证GPU转满。

【在 x****u 的大作中提到】

: 训练用ssd是什么意思？为什么东西小了反而要ssd？

L****8
发帖数: 3938

我记得你以前说过relu没用来着

【在 w***g 的大作中提到】

: slim的conv2d自带relu。

w*****r
发帖数: 197

如果用ssd再组个raid0，没意义么？

【在 w***g 的大作中提到】

: ssd是为了random seek。HDD没法seek。
: ssd random I/O的速度基本上能保证GPU转满。

w***g
发帖数: 5958

Raid1更快，多个盘镜像提速。走pcie的m2盘比ssd又快不少，就是堆不了太多还占pcie
。估计cpu做augmentation会先到瓶颈。

：如果用ssd再组个raid0，没意义么？
：

x****u
发帖数: 44466

SSD和大RAM当cache怎么选择啊？
如果在云vm上操作，RAM不用不收钱，但SSD的存储费也不低啊

【在 w***g 的大作中提到】

: ssd是为了random seek。HDD没法seek。
: ssd random I/O的速度基本上能保证GPU转满。

x****u
发帖数: 44466

深度学习模型的训练方法应该单独成为一个研究领域，研究在超参数固定优化算法固定
的时候怎么训练最终结果最好
数据无限且全部精确标记这个前提在地球上大部分时候都不成立啊。。。

【在 w***g 的大作中提到】

w***g
发帖数: 5958

云就是这个讨厌。什么都要拆散了算计。
可以平时存在HDD，训练前拷到SSD。
本来可以cache一半，另一半从SSD读，50% hit rate。
不过这么做也没太大意义了。SSD反正也够快。

【在 x****u 的大作中提到】

: SSD和大RAM当cache怎么选择啊？
: 如果在云vm上操作，RAM不用不收钱，但SSD的存储费也不低啊

x****u
发帖数: 44466

想起另一个问题：有没有想过图像预处理上GPU？
如果图较多较大的话，用CPU算也是不经济的吧

【在 w***g 的大作中提到】

: 云就是这个讨厌。什么都要拆散了算计。
: 可以平时存在HDD，训练前拷到SSD。
: 本来可以cache一半，另一半从SSD读，50% hit rate。
: 不过这么做也没太大意义了。SSD反正也够快。

(共1页)

进入Programming版参与讨论

相关主题
● CNN网络之后一般还要加FNN？
● 卷积这东西真神了
● CNN transfer learning 为啥这么牛逼？
● IBM 弄出个DDL，16天缩短到7小时，很暴力
● Deepmind 的星际二挑战
● deep learning现在还是冰山一角
● hinton的胶囊本版什么评价
● 请教数据存储问题
● 怎样把snoop的文本结果抽出来?
● 学了一圈lisp, haskell, ruby ,python, lua.发觉还是后两者比较有用

相关话题的讨论汇总
话题: ssd话题: picpac话题: 数据话题: net

boards