梯度下降法 —— 经典的优化方法

DomDomm · 发表于 2022-6-4 11:38

这个只确保了下降方向，还需要继续说明\alpha取何值获得最大下降方向。
[吃瓜]

Doris232 · 发表于 2022-6-4 11:45

谢谢，欣慰。

redhat9i · 发表于 2022-6-4 11:52

谢谢，简单地讲明白了~

yukamu · 发表于 2022-6-4 12:01

泰勒展开是求下一个X的关键

mypro334 · 发表于 2022-6-4 12:05

如果alpha选取过大，泰勒展开公式还是否成立呢？这里如何限定alpha的大小保证Taylor公式成立呢？

Zephus · 发表于 2022-6-4 12:05

用泰勒展开求的delta x是关键啊

mypro334 · 发表于 2022-6-4 12:12

看了您写的泰勒公式f(x + Δx) = f(x) + Δx·f'(x)那儿，我想了半天也没想起来有哪个泰勒公式长这样，后来突然想起这个是用微分估计函数值，详见高等数学同济第7版116页。

闲鱼技术01 · 发表于 2022-6-4 12:19

能问下lr=0.1表示啥吗

Arzie100 · 发表于 2022-6-4 12:27

是下面的learning_rate , 应该是作者笔误了. 就是一个自定义的值, 因为效果比较好, 所以大家都lr=0.1, lr这种变量学名超参数

acecase · 发表于 2022-6-4 12:36

太感谢了

		自动登录	找回密码
密码			立即注册