w***g 发帖数: 5958 | 1 不知道版上的朋友有没有注意过。
比较典型的:
https://www.groundai.com/media/arxiv_projects/28303/Figures/hypothesis.svg
https://www.groundai.com/project/improving-generalization-performance-by-
switching-from-adam-to-sgd/
我这两天在纠结这个cifar-10,发现也有这个现象。
就是50个epoch以后感觉山重水复疑无路了,错误率长时间在一个范围震动。
然后到150个epoch左右神经网络突然开窍,达到最优的状态。
随便在网上搜搜,很多图里都有这个现象。 |
w*****r 发帖数: 197 | 2 我觉得我能理解这个现象,我猜如果你不shuffle,应该不会有这个现象
另外,随着batch size的增大,这种现象也会减小 |
x**********i 发帖数: 658 | 3 神经网络有没有个大约general的共识,比如batch size越大越好或者某个值,epoch越
多越好?filter越多越好?
还是这些参数必须根据具体model来调整
:我觉得我能理解这个现象,我猜如果你不shuffle,应该不会有这个现象
: |
v*******e 发帖数: 11604 | |
x****u 发帖数: 44466 | 5 你干的什么?
一般来说单纯的图像分类不会出现这么复杂的曲线吧
【在 w***g 的大作中提到】 : 不知道版上的朋友有没有注意过。 : 比较典型的: : https://www.groundai.com/media/arxiv_projects/28303/Figures/hypothesis.svg : https://www.groundai.com/project/improving-generalization-performance-by- : switching-from-adam-to-sgd/ : 我这两天在纠结这个cifar-10,发现也有这个现象。 : 就是50个epoch以后感觉山重水复疑无路了,错误率长时间在一个范围震动。 : 然后到150个epoch左右神经网络突然开窍,达到最优的状态。 : 随便在网上搜搜,很多图里都有这个现象。
|
x****u 发帖数: 44466 | 6 必须没有啊
不然就真是通用AI了
现在只能说imagenet等大数据集上训练出来的一般都不错,但要是真细扣特定领域优化
空间肯定很多
【在 x**********i 的大作中提到】 : 神经网络有没有个大约general的共识,比如batch size越大越好或者某个值,epoch越 : 多越好?filter越多越好? : 还是这些参数必须根据具体model来调整 : : :我觉得我能理解这个现象,我猜如果你不shuffle,应该不会有这个现象 : :
|
g****t 发帖数: 31659 | 7 最接近的解释就是chaos 动力系统吧。
不管什么算法,都是x(k 1) = f(x(k),p)这样的迭代。
一个图上有好几个吸引子。
有的吸引子有近周期解,会让你振荡很长时间。
但它不是真正的周期解。所以最后后走到另一个吸引子
的近周期解。
对相对简单的系统。
我会画不同参数取值下,不同类型震荡的分类图。
但据我所知,近周期解,周期解,混沌解具体的边界
是没有统一的办法计算和预测的。
最简单的一个例子就是对三体问题做数值仿真。
三体的质量和初始值不同就能看到你描述的这种
长期震荡,然后换一个值长期震荡的情况。 |
g*******h 发帖数: 1 | 8 从控制论的角度看,在前一阶段,计算出现了病态。本身神经网络就是非线性函数,数
值不稳定,某个小的扰动使得整个系统跑到另一个状态。 |
g****t 发帖数: 31659 | 9 非线性和数值不稳定是两个概念吧。矩阵乘法或者计算标准差这样的简单计算如果算法
不对都有可能数值不稳定。
: 从控制论的角度看,在前一阶段,计算出现了病态。本身神经网络就是非线性函
数,数
: 值不稳定,某个小的扰动使得整个系统跑到另一个状态。
【在 g*******h 的大作中提到】 : 从控制论的角度看,在前一阶段,计算出现了病态。本身神经网络就是非线性函数,数 : 值不稳定,某个小的扰动使得整个系统跑到另一个状态。
|
g*******h 发帖数: 1 | 10
非线性和数值不稳定是两个概念, 但非线性系统优化本身就可能不稳定. 前些年作神经
网络的人在学校里都是骗子的代名词,这两年突然走了狗屎运,变得高大上了,但神经
网络本身还是一坨狗屎。
【在 g****t 的大作中提到】 : 非线性和数值不稳定是两个概念吧。矩阵乘法或者计算标准差这样的简单计算如果算法 : 不对都有可能数值不稳定。 : : : 从控制论的角度看,在前一阶段,计算出现了病态。本身神经网络就是非线性函 : 数,数 : : 值不稳定,某个小的扰动使得整个系统跑到另一个状态。 :
|
|
|
c*******v 发帖数: 2599 | 11 哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。
我当初参与建设中国高校第一套燃料电池系统,负责神经网络建模和控制系统。
交大副校长凌晨一点接到电话,来视察看我们发电成功。我作为吉祥物,
手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法,也用了类似的
知识。
前向网就是两个不同的算子,一个线性,一个非线性的多层叠代。
怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。
【在 g*******h 的大作中提到】 : : 非线性和数值不稳定是两个概念, 但非线性系统优化本身就可能不稳定. 前些年作神经 : 网络的人在学校里都是骗子的代名词,这两年突然走了狗屎运,变得高大上了,但神经 : 网络本身还是一坨狗屎。
|
g*******h 发帖数: 1 | 12
我没有说神经网络没用,只是现在没人知道它为什么有用,只是猜猜,试试,然后给个
拓铺网络,这就是一篇文章了。神经元本身就是个非线性函数,神经网络可以逼近任何
非线性系统,当然可以建模。但我不知道它什么时候进入饱和状态,什么时候不可激励
,一个黑箱而已。这和中医没什么区别。
【在 c*******v 的大作中提到】 : 哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。 : 我当初参与建设中国高校第一套燃料电池系统,负责神经网络建模和控制系统。 : 交大副校长凌晨一点接到电话,来视察看我们发电成功。我作为吉祥物, : 手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法,也用了类似的 : 知识。 : 前向网就是两个不同的算子,一个线性,一个非线性的多层叠代。 : 怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。
|
g****t 发帖数: 31659 | 13 三体不可预测。那么万有引力定理就是黑箱?
【在 g*******h 的大作中提到】 : : 我没有说神经网络没用,只是现在没人知道它为什么有用,只是猜猜,试试,然后给个 : 拓铺网络,这就是一篇文章了。神经元本身就是个非线性函数,神经网络可以逼近任何 : 非线性系统,当然可以建模。但我不知道它什么时候进入饱和状态,什么时候不可激励 : ,一个黑箱而已。这和中医没什么区别。
|
j*******2 发帖数: 19 | 14 你确定不是因为learning rate调小了?很多paper里面到了一定阶段都会调整learning
rate从而达到进一步收敛的目的。像著名的resnet paper里就提到,“The learning
rate starts from 0.1 and is divided by 10 when the error plateaus”。 |
j*******2 发帖数: 19 | 15 你的第二个链接里也说了 reducing the learning rate by 10 after 150 epochs |
x****u 发帖数: 44466 | 16 直接上可变学习率的优化器省心啊
learning
learning
【在 j*******2 的大作中提到】 : 你确定不是因为learning rate调小了?很多paper里面到了一定阶段都会调整learning : rate从而达到进一步收敛的目的。像著名的resnet paper里就提到,“The learning : rate starts from 0.1 and is divided by 10 when the error plateaus”。
|
w***g 发帖数: 5958 | 17 据说老司机的话用手动档最后收敛的好。最近有一篇adam
训练一阵子后自动切SGD的文章。
【在 x****u 的大作中提到】 : 直接上可变学习率的优化器省心啊 : : learning : learning
|
L****8 发帖数: 3938 | 18 http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf
batch size 越大越好
【在 x**********i 的大作中提到】 : 神经网络有没有个大约general的共识,比如batch size越大越好或者某个值,epoch越 : 多越好?filter越多越好? : 还是这些参数必须根据具体model来调整 : : :我觉得我能理解这个现象,我猜如果你不shuffle,应该不会有这个现象 : :
|
f******2 发帖数: 2455 | 19 燃料电池现在应用如何?
: 哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。
: 我当初参与建设中国高校第一套燃料电池系统,负责神经网络建模和控制系统。
: 交大副校长凌晨一点接到电话,来视察看我们发电成功。我作为吉祥物,
: 手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法,也用了类似的
: 知识。
: 前向网就是两个不同的算子,一个线性,一个非线性的多层叠代。
: 怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。
【在 c*******v 的大作中提到】 : 哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。 : 我当初参与建设中国高校第一套燃料电池系统,负责神经网络建模和控制系统。 : 交大副校长凌晨一点接到电话,来视察看我们发电成功。我作为吉祥物, : 手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法,也用了类似的 : 知识。 : 前向网就是两个不同的算子,一个线性,一个非线性的多层叠代。 : 怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。
|
x**********i 发帖数: 658 | 20 请问下用batch和sgd有区别吗?还是两者同时用效果最好?我现在是如果用batch就不
用sgd,反之亦然。
:据说老司机的话用手动档最后收敛的好。最近有一篇adam
:训练一阵子后自动切SGD的文章。 |
|
|
x**********i 发帖数: 658 | 21 谢谢你的文章,很有用
那如果这样的话,就不用batch就行了啊,用sgd来减少计算量。
【在 L****8 的大作中提到】 : http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf : batch size 越大越好
|
x****u 发帖数: 44466 | 22 没那么绝对吧
大的batch_size代表了下大棋,小的batch_size代表了工匠精神
【在 L****8 的大作中提到】 : http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf : batch size 越大越好
|
L****8 发帖数: 3938 | 23 穷鬼用batch_size=1
【在 x****u 的大作中提到】 : 没那么绝对吧 : 大的batch_size代表了下大棋,小的batch_size代表了工匠精神
|
s*****V 发帖数: 21731 | 24 直观理解不难,cost fuction进入一个平坦的盆地,好比一个水池,只有一个很小的出
水孔到下一级,要在水池底部随机游走一段时间才能找到出水孔。
【在 w***g 的大作中提到】 : 不知道版上的朋友有没有注意过。 : 比较典型的: : https://www.groundai.com/media/arxiv_projects/28303/Figures/hypothesis.svg : https://www.groundai.com/project/improving-generalization-performance-by- : switching-from-adam-to-sgd/ : 我这两天在纠结这个cifar-10,发现也有这个现象。 : 就是50个epoch以后感觉山重水复疑无路了,错误率长时间在一个范围震动。 : 然后到150个epoch左右神经网络突然开窍,达到最优的状态。 : 随便在网上搜搜,很多图里都有这个现象。
|
h**l 发帖数: 168 | 25 深度学习解决的其实就是一个优化的数值计算问题。给定一个很复杂的目标函数,能够
比较快的找到一个比较接近global minimum的local minimum, 靠调参数来实现尽可能
快和尽可能接近,然后调参数靠经验和运气。
【在 s*****V 的大作中提到】 : 直观理解不难,cost fuction进入一个平坦的盆地,好比一个水池,只有一个很小的出 : 水孔到下一级,要在水池底部随机游走一段时间才能找到出水孔。
|
w***g 发帖数: 5958 | |
x****u 发帖数: 44466 | 27 求解地球上一切数学问题都可以用调参二字概括
我觉得调参的艺术在于对问题本身的困难度和道路曲折度的估计如何
【在 h**l 的大作中提到】 : 深度学习解决的其实就是一个优化的数值计算问题。给定一个很复杂的目标函数,能够 : 比较快的找到一个比较接近global minimum的local minimum, 靠调参数来实现尽可能 : 快和尽可能接近,然后调参数靠经验和运气。
|
x****u 发帖数: 44466 | 28 batch size越小越不容易并行化,而做同样的运算,非并行的硬件贵啊
【在 L****8 的大作中提到】 : 穷鬼用batch_size=1
|
h**l 发帖数: 168 | 29 这个,一切有点绝对。我同意大多数实用问题是靠调参数,因为模型已经建立好。
但是希尔伯特的23个问题靠调参数估计搞不定。不然张益唐也没办法找到工作了。
【在 x****u 的大作中提到】 : 求解地球上一切数学问题都可以用调参二字概括 : 我觉得调参的艺术在于对问题本身的困难度和道路曲折度的估计如何
|
x****u 发帖数: 44466 | 30 人调参的能力比机器小N个数量级啊
人证明一个难题可能平均要200年,将来说不定被机器24小时通吃
【在 h**l 的大作中提到】 : 这个,一切有点绝对。我同意大多数实用问题是靠调参数,因为模型已经建立好。 : 但是希尔伯特的23个问题靠调参数估计搞不定。不然张益唐也没办法找到工作了。
|