Zephus
发表于 2022-1-7 17:27
reddit上有相关讨论,网友habanero_ass_fire用这个算法训练了imagenet,发现到后期就训练不动了,作者的实验是基于CIFAR10这种小数据集做的,对于imagenet需要调整gamma参数。
如果只是粗略地读一下论文,不理解gamma的含义,也不对gamma进行调参,直接用这个方法去训练imagenet,极大概率会获得一个较差的结果。
https://www.reddit.com/r/MachineLearning/comments/auvj3q/r_adabound_an_optimizer_that_trains_as_fast_as/
stonstad
发表于 2022-1-7 17:35
在时序预测任务上试了下Adabound, 收敛速度能感受到快了。顺便借楼推销下自己的文章AdaHMG算法。也是在Adam的基础上改进了一下(尤其适合于时间序列预测这种强时间关联性的回归任务),尽管发表的期刊不太好。但是希望各位大佬能看下我的文章,欢迎批评指正。来自知乎小透明的勇敢尝试。
算法的遗憾界限regret如下图 (懒得打公式了,求轻拍,讲真的):
欢迎大家移步github看keras版本的实现和部分数据集的模型代码。地址:zwd2016/AdaHMG
论文地址:https://ieeexplore.ieee.org/document/8635473/keywords#keywords
kirin77
发表于 2022-1-7 17:44
这是一个排列组合出来的工作,甚至并不新颖。
Zephus
发表于 2022-1-7 17:53
昨天瞅了一下,怎么觉得论文里的算法和pytorch实现不大一样呢,实现里面没有用到diag啊?我打开的方式不对?
zifa2003293
发表于 2022-1-7 18:01
建议相关公众号换换写作风格……每次出来什么东西都吹得神乎其神的还总是把一些无关的东西都放上去……
以上是吐槽,下面是正经的讨论orz
源代码开源还可以直接用,我觉得对我这种并不了解优化算法的人很有帮助,作者在GitHub上也会回复问题,所以我觉得正面意义是很大的,至于好不好用,论文里给出了许多相关实验,我觉得大家想用的话就可以去踩踩坑之类的。我把我的一个做阅读理解的模型的Adamax换成了Adabound,F1下降了两分左右,但我没有用过sgd,作者也表示建议我换个SGD再对比一下,不过最近资源比较紧张,应该会暂时搁置下来orz
KaaPexei
发表于 2022-1-7 18:03
不做ImageNet也能出街?reviewer有毛病。
Mecanim
发表于 2022-1-7 18:05
用作者提供的adabound.py的训练,就是不怎么收敛……没动任何参数,全部都是默认推(jing)荐(yan)值
补充一下,有点小失望吧,媒体上面吹的那么diao。。。。。
ChuanXin
发表于 2022-1-7 18:15
有人在nlp相关任务上实验了吗,adabound干过adam或者sgdm的来说下,教教我。。。
RedZero9
发表于 2022-1-7 18:18
呵呵
网红学术,best学术。
BlaXuan
发表于 2022-1-7 18:19
我只在我的项目中 替换过这个优化器 把原来的adam 代码 换成了 adabound 直接不优化了 。
我也不知道为什么 用的 adabound 默认配置lr 1e-3。
可能自己太菜吧,没敢在 github 上立issue。 觉得对 NLP 任务 不那么友好
个人觉得慢慢看吧, 如果真的很有效果, 我觉得 FAIR 会在 pytorch 中进行官方实现。