由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - [bssd] 讨论一点参数调节的浅见
相关主题
wdong, 要不要换Julia?王垠又要回国了
聊两句wdong的内功总纲一个C++的概念问题
有已知规则的情况下怎么做DLintel icc hash_map 求救!
Ai这个社团很多人是很坏的STL感觉实在太变态了
求教 xgboost train error 非常小,咋回事[菜鸟问题]类模板问题
Tf里面怎么选optimizer?c++ iterator 弱问
一个烂设计的实例SmartThingsc++ template question:
继续掐12306请问Linux底下有没有最简易的show 2D x-y curve的工具
相关话题的讨论汇总
话题: adam话题: 梯度话题: 算法话题: 步长话题: 办法
进入Programming版参与讨论
1 (共1页)
c*******v
发帖数: 2599
1
以前是wdong告诉我有adam的办法。我看了下步骤感觉这个办法很牛。
因为它
a。符合我的经验和物理直觉。
b。计算效率高
在前面自动驾驶一个讨论里。我提到,
(I)如果要消除oscillation,
一般就是减小步长。
adam 算法可以看作这个idea的量化实现。我以前根据这个idea做过
自适应算法,所以看了adam算法第一感觉就是这是老师傅设计的。
如果认为一个训练的目标是梯度最后为0。
那么梯度的振荡大,自然要减少步长。
最简单的办法就是统计前面一段时间梯度振幅。这种统计可以各种
办法做。指数移动平均对内存和速度来说是首选。这就是我理解的
adam算法的原理:前段时间振幅大,就把步长减小。
如果你认为idea (I)是有道理的。也可以实现别的类似优化算法。
有可能更准,更高效。例如你求过去200 iterations,梯度平方的top 25%的平均。
这个用来来代替移动平均。
这是一个方向。另一个方向,最小二乘法求解b=Ax的解是inv(A’A)×A
c*******v
发帖数: 2599
2
老刑这个垃圾站。写的后半节如何扩展Adam
居然没了
有两个办法。一者是统计梯度的互相关。为避免计算量大,可以只选top 25%的梯度算
一下。adam的平方部分适用于海赛阵的对角元素。那么稍微填一些别的元素。二者是找
高阶统计。Adam of Adam 类似于牛顿法的推广。三者是如果振荡大,可以同一个mini
batch有选择的重复几次当输入。
1 (共1页)
进入Programming版参与讨论
相关主题
请问Linux底下有没有最简易的show 2D x-y curve的工具求教 xgboost train error 非常小,咋回事
用那个design pattern好?Tf里面怎么选optimizer?
关于inserter一个烂设计的实例SmartThings
binary_search只要求forward_iterator?继续掐12306
wdong, 要不要换Julia?王垠又要回国了
聊两句wdong的内功总纲一个C++的概念问题
有已知规则的情况下怎么做DLintel icc hash_map 求救!
Ai这个社团很多人是很坏的STL感觉实在太变态了
相关话题的讨论汇总
话题: adam话题: 梯度话题: 算法话题: 步长话题: 办法