找回密码
 立即注册
楼主: DungDaj

梯度下降法 —— 经典的优化方法

[复制链接]
发表于 2022-6-4 11:38 | 显示全部楼层
这个只确保了下降方向,还需要继续说明\alpha取何值获得最大下降方向。
[吃瓜]
发表于 2022-6-4 11:45 | 显示全部楼层
谢谢,欣慰。
发表于 2022-6-4 11:52 | 显示全部楼层
谢谢,简单地讲明白了~
发表于 2022-6-4 12:01 | 显示全部楼层
泰勒展开是求下一个X的关键
发表于 2022-6-4 12:05 | 显示全部楼层
如果alpha选取过大,泰勒展开公式还是否成立呢?这里如何限定alpha的大小保证Taylor公式成立呢?
发表于 2022-6-4 12:05 | 显示全部楼层
用泰勒展开求的delta x是关键啊
发表于 2022-6-4 12:12 | 显示全部楼层
看了您写的泰勒公式f(x + Δx) = f(x) + Δx·f'(x)那儿,我想了半天也没想起来有哪个泰勒公式长这样,后来突然想起这个是用微分估计函数值,详见高等数学同济第7版116页。
发表于 2022-6-4 12:19 | 显示全部楼层
能问下lr=0.1表示啥吗
发表于 2022-6-4 12:27 | 显示全部楼层
是下面的learning_rate , 应该是作者笔误了. 就是一个自定义的值, 因为效果比较好, 所以大家都lr=0.1, lr这种变量学名超参数
发表于 2022-6-4 12:36 | 显示全部楼层
太感谢了
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-9-22 09:52 , Processed in 0.273782 second(s), 23 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表