神经网络的开窍现象 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 神经网络的开窍现象

相关主题
● 求问 tf.estimator.trainspec max_steps	● 想写一个machine learning的平台
● 几十层的神经网络用小机器能不能训练出来？	● 总结一下kaggle比赛
● 感觉版上大都搞ML, DL	● NN这种情形怎么学习法？
● how to get the number of days between two dates in C++	● 关于搞ML刷数据的职业前途
● 问一个c的问题	● 知道R为什么那么流行了哈哈
● boost的deadline_timer要多脑残才能整出来？	● 如果数据少，是不是就不能用CNN
● mint 是啥语言写的	● 学习DEEP LEARNING
● 已经全上内存了，还要40多秒啊	● 聊两句wdong的内功总纲

相关话题的讨论汇总
话题: 神经网络话题: batch话题: 现象话题: sgd话题: 非线性

进入Programming版参与讨论

(共1页)

w***g
发帖数: 5958

不知道版上的朋友有没有注意过。
比较典型的：
https://www.groundai.com/media/arxiv_projects/28303/Figures/hypothesis.svg
https://www.groundai.com/project/improving-generalization-performance-by-
switching-from-adam-to-sgd/
我这两天在纠结这个cifar-10，发现也有这个现象。
就是50个epoch以后感觉山重水复疑无路了，错误率长时间在一个范围震动。
然后到150个epoch左右神经网络突然开窍，达到最优的状态。
随便在网上搜搜，很多图里都有这个现象。

w*****r
发帖数: 197

我觉得我能理解这个现象，我猜如果你不shuffle，应该不会有这个现象
另外，随着batch size的增大，这种现象也会减小

x**********i
发帖数: 658

神经网络有没有个大约general的共识，比如batch size越大越好或者某个值，epoch越
多越好？filter越多越好？
还是这些参数必须根据具体model来调整

：我觉得我能理解这个现象，我猜如果你不shuffle，应该不会有这个现象
：

v*******e
发帖数: 11604

是不是跳进了某个更优解的流域里。

x****u
发帖数: 44466

你干的什么？
一般来说单纯的图像分类不会出现这么复杂的曲线吧

【在 w***g 的大作中提到】

: 不知道版上的朋友有没有注意过。
: 比较典型的：
: https://www.groundai.com/media/arxiv_projects/28303/Figures/hypothesis.svg
: https://www.groundai.com/project/improving-generalization-performance-by-
: switching-from-adam-to-sgd/
: 我这两天在纠结这个cifar-10，发现也有这个现象。
: 就是50个epoch以后感觉山重水复疑无路了，错误率长时间在一个范围震动。
: 然后到150个epoch左右神经网络突然开窍，达到最优的状态。
: 随便在网上搜搜，很多图里都有这个现象。

x****u
发帖数: 44466

必须没有啊
不然就真是通用AI了
现在只能说imagenet等大数据集上训练出来的一般都不错，但要是真细扣特定领域优化
空间肯定很多

【在 x**********i 的大作中提到】

: 神经网络有没有个大约general的共识，比如batch size越大越好或者某个值，epoch越
: 多越好？filter越多越好？
: 还是这些参数必须根据具体model来调整
:
: ：我觉得我能理解这个现象，我猜如果你不shuffle，应该不会有这个现象
: ：

g****t
发帖数: 31659

最接近的解释就是chaos 动力系统吧。
不管什么算法，都是x(k 1) = f(x(k),p)这样的迭代。
一个图上有好几个吸引子。
有的吸引子有近周期解，会让你振荡很长时间。
但它不是真正的周期解。所以最后后走到另一个吸引子
的近周期解。
对相对简单的系统。
我会画不同参数取值下，不同类型震荡的分类图。
但据我所知，近周期解，周期解，混沌解具体的边界
是没有统一的办法计算和预测的。
最简单的一个例子就是对三体问题做数值仿真。
三体的质量和初始值不同就能看到你描述的这种
长期震荡，然后换一个值长期震荡的情况。

g*******h
发帖数: 1

从控制论的角度看，在前一阶段，计算出现了病态。本身神经网络就是非线性函数，数
值不稳定，某个小的扰动使得整个系统跑到另一个状态。

g****t
发帖数: 31659

非线性和数值不稳定是两个概念吧。矩阵乘法或者计算标准差这样的简单计算如果算法
不对都有可能数值不稳定。

: 从控制论的角度看，在前一阶段，计算出现了病态。本身神经网络就是非线性函
数，数

: 值不稳定，某个小的扰动使得整个系统跑到另一个状态。

【在 g*******h 的大作中提到】

: 从控制论的角度看，在前一阶段，计算出现了病态。本身神经网络就是非线性函数，数
: 值不稳定，某个小的扰动使得整个系统跑到另一个状态。

g*******h
发帖数: 1

非线性和数值不稳定是两个概念, 但非线性系统优化本身就可能不稳定. 前些年作神经
网络的人在学校里都是骗子的代名词，这两年突然走了狗屎运，变得高大上了，但神经
网络本身还是一坨狗屎。

【在 g****t 的大作中提到】

: 非线性和数值不稳定是两个概念吧。矩阵乘法或者计算标准差这样的简单计算如果算法
: 不对都有可能数值不稳定。
:
:
: 从控制论的角度看，在前一阶段，计算出现了病态。本身神经网络就是非线性函
: 数，数
:
: 值不稳定，某个小的扰动使得整个系统跑到另一个状态。
:

相关主题
● boost的deadline_timer要多脑残才能整出来？	● 想写一个machine learning的平台
● mint 是啥语言写的	● 总结一下kaggle比赛
● 已经全上内存了，还要40多秒啊	● NN这种情形怎么学习法？
进入Programming版参与讨论

c*******v
发帖数: 2599

哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。
我当初参与建设中国高校第一套燃料电池系统，负责神经网络建模和控制系统。
交大副校长凌晨一点接到电话，来视察看我们发电成功。我作为吉祥物，
手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法，也用了类似的
知识。
前向网就是两个不同的算子，一个线性，一个非线性的多层叠代。
怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。

【在 g*******h 的大作中提到】

:
: 非线性和数值不稳定是两个概念, 但非线性系统优化本身就可能不稳定. 前些年作神经
: 网络的人在学校里都是骗子的代名词，这两年突然走了狗屎运，变得高大上了，但神经
: 网络本身还是一坨狗屎。

g*******h
发帖数: 1

我没有说神经网络没用，只是现在没人知道它为什么有用，只是猜猜，试试，然后给个
拓铺网络，这就是一篇文章了。神经元本身就是个非线性函数，神经网络可以逼近任何
非线性系统，当然可以建模。但我不知道它什么时候进入饱和状态，什么时候不可激励
，一个黑箱而已。这和中医没什么区别。

【在 c*******v 的大作中提到】

: 哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。
: 我当初参与建设中国高校第一套燃料电池系统，负责神经网络建模和控制系统。
: 交大副校长凌晨一点接到电话，来视察看我们发电成功。我作为吉祥物，
: 手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法，也用了类似的
: 知识。
: 前向网就是两个不同的算子，一个线性，一个非线性的多层叠代。
: 怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。

g****t
发帖数: 31659

三体不可预测。那么万有引力定理就是黑箱？

【在 g*******h 的大作中提到】

:
: 我没有说神经网络没用，只是现在没人知道它为什么有用，只是猜猜，试试，然后给个
: 拓铺网络，这就是一篇文章了。神经元本身就是个非线性函数，神经网络可以逼近任何
: 非线性系统，当然可以建模。但我不知道它什么时候进入饱和状态，什么时候不可激励
: ，一个黑箱而已。这和中医没什么区别。

j*******2
发帖数: 19

你确定不是因为learning rate调小了？很多paper里面到了一定阶段都会调整learning
rate从而达到进一步收敛的目的。像著名的resnet paper里就提到，“The learning
rate starts from 0.1 and is divided by 10 when the error plateaus”。

j*******2
发帖数: 19

你的第二个链接里也说了 reducing the learning rate by 10 after 150 epochs

x****u
发帖数: 44466

直接上可变学习率的优化器省心啊

learning
learning

【在 j*******2 的大作中提到】

: 你确定不是因为learning rate调小了？很多paper里面到了一定阶段都会调整learning
: rate从而达到进一步收敛的目的。像著名的resnet paper里就提到，“The learning
: rate starts from 0.1 and is divided by 10 when the error plateaus”。

w***g
发帖数: 5958

据说老司机的话用手动档最后收敛的好。最近有一篇adam
训练一阵子后自动切SGD的文章。

【在 x****u 的大作中提到】

: 直接上可变学习率的优化器省心啊
:
: learning
: learning

L****8
发帖数: 3938

http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf
batch size 越大越好

【在 x**********i 的大作中提到】

f******2
发帖数: 2455

燃料电池现在应用如何？

: 哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。

: 我当初参与建设中国高校第一套燃料电池系统，负责神经网络建模和控制系统。

: 交大副校长凌晨一点接到电话，来视察看我们发电成功。我作为吉祥物，

: 手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法，也用了类似的

: 知识。

: 前向网就是两个不同的算子，一个线性，一个非线性的多层叠代。

: 怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。

【在 c*******v 的大作中提到】

x**********i
发帖数: 658

请问下用batch和sgd有区别吗？还是两者同时用效果最好？我现在是如果用batch就不
用sgd，反之亦然。

：据说老司机的话用手动档最后收敛的好。最近有一篇adam
：训练一阵子后自动切SGD的文章。

相关主题
● 关于搞ML刷数据的职业前途	● 学习DEEP LEARNING
● 知道R为什么那么流行了哈哈	● 聊两句wdong的内功总纲
● 如果数据少，是不是就不能用CNN	● 再问机器学习。。。用keras分类
进入Programming版参与讨论

x**********i
发帖数: 658

谢谢你的文章，很有用
那如果这样的话，就不用batch就行了啊，用sgd来减少计算量。

【在 L****8 的大作中提到】

: http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf
: batch size 越大越好

x****u
发帖数: 44466

没那么绝对吧
大的batch_size代表了下大棋，小的batch_size代表了工匠精神

【在 L****8 的大作中提到】

: http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf
: batch size 越大越好

L****8
发帖数: 3938

穷鬼用batch_size=1

【在 x****u 的大作中提到】

: 没那么绝对吧
: 大的batch_size代表了下大棋，小的batch_size代表了工匠精神

s*****V
发帖数: 21731

直观理解不难，cost fuction进入一个平坦的盆地，好比一个水池，只有一个很小的出
水孔到下一级，要在水池底部随机游走一段时间才能找到出水孔。

【在 w***g 的大作中提到】

h**l
发帖数: 168

深度学习解决的其实就是一个优化的数值计算问题。给定一个很复杂的目标函数，能够
比较快的找到一个比较接近global minimum的local minimum，靠调参数来实现尽可能
快和尽可能接近，然后调参数靠经验和运气。

【在 s*****V 的大作中提到】

: 直观理解不难，cost fuction进入一个平坦的盆地，好比一个水池，只有一个很小的出
: 水孔到下一级，要在水池底部随机游走一段时间才能找到出水孔。

w***g
发帖数: 5958

多谢！

【在 L****8 的大作中提到】

: http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf
: batch size 越大越好

x****u
发帖数: 44466

求解地球上一切数学问题都可以用调参二字概括
我觉得调参的艺术在于对问题本身的困难度和道路曲折度的估计如何

【在 h**l 的大作中提到】

: 深度学习解决的其实就是一个优化的数值计算问题。给定一个很复杂的目标函数，能够
: 比较快的找到一个比较接近global minimum的local minimum，靠调参数来实现尽可能
: 快和尽可能接近，然后调参数靠经验和运气。

x****u
发帖数: 44466

batch size越小越不容易并行化，而做同样的运算，非并行的硬件贵啊

【在 L****8 的大作中提到】

: 穷鬼用batch_size=1

h**l
发帖数: 168

这个，一切有点绝对。我同意大多数实用问题是靠调参数，因为模型已经建立好。
但是希尔伯特的23个问题靠调参数估计搞不定。不然张益唐也没办法找到工作了。

【在 x****u 的大作中提到】

: 求解地球上一切数学问题都可以用调参二字概括
: 我觉得调参的艺术在于对问题本身的困难度和道路曲折度的估计如何

x****u
发帖数: 44466

人调参的能力比机器小N个数量级啊
人证明一个难题可能平均要200年，将来说不定被机器24小时通吃

【在 h**l 的大作中提到】

: 这个，一切有点绝对。我同意大多数实用问题是靠调参数，因为模型已经建立好。
: 但是希尔伯特的23个问题靠调参数估计搞不定。不然张益唐也没办法找到工作了。

(共1页)

进入Programming版参与讨论

相关主题
● 聊两句wdong的内功总纲	● 问一个c的问题
● 再问机器学习。。。用keras分类	● boost的deadline_timer要多脑残才能整出来？
● xiaoju 老师进来一下	● mint 是啥语言写的
● 有没有做sentiment analysis的，求思路	● 已经全上内存了，还要40多秒啊
● 求问 tf.estimator.trainspec max_steps	● 想写一个machine learning的平台
● 几十层的神经网络用小机器能不能训练出来？	● 总结一下kaggle比赛
● 感觉版上大都搞ML, DL	● NN这种情形怎么学习法？
● how to get the number of days between two dates in C++	● 关于搞ML刷数据的职业前途

相关话题的讨论汇总
话题: 神经网络话题: batch话题: 现象话题: sgd话题: 非线性

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天