DomDomm 发表于 2022-6-4 11:38

这个只确保了下降方向,还需要继续说明\alpha取何值获得最大下降方向。
[吃瓜]

Doris232 发表于 2022-6-4 11:45

谢谢,欣慰。

redhat9i 发表于 2022-6-4 11:52

谢谢,简单地讲明白了~

yukamu 发表于 2022-6-4 12:01

泰勒展开是求下一个X的关键

mypro334 发表于 2022-6-4 12:05

如果alpha选取过大,泰勒展开公式还是否成立呢?这里如何限定alpha的大小保证Taylor公式成立呢?

Zephus 发表于 2022-6-4 12:05

用泰勒展开求的delta x是关键啊

mypro334 发表于 2022-6-4 12:12

看了您写的泰勒公式f(x + Δx) = f(x) + Δx·f'(x)那儿,我想了半天也没想起来有哪个泰勒公式长这样,后来突然想起这个是用微分估计函数值,详见高等数学同济第7版116页。

闲鱼技术01 发表于 2022-6-4 12:19

能问下lr=0.1表示啥吗

Arzie100 发表于 2022-6-4 12:27

是下面的learning_rate , 应该是作者笔误了. 就是一个自定义的值, 因为效果比较好, 所以大家都lr=0.1, lr这种变量学名超参数

acecase 发表于 2022-6-4 12:36

太感谢了
页: 1 [2] 3
查看完整版本: 梯度下降法 —— 经典的优化方法