DomDomm
发表于 2022-6-4 11:38
这个只确保了下降方向,还需要继续说明\alpha取何值获得最大下降方向。
[吃瓜]
Doris232
发表于 2022-6-4 11:45
谢谢,欣慰。
redhat9i
发表于 2022-6-4 11:52
谢谢,简单地讲明白了~
yukamu
发表于 2022-6-4 12:01
泰勒展开是求下一个X的关键
mypro334
发表于 2022-6-4 12:05
如果alpha选取过大,泰勒展开公式还是否成立呢?这里如何限定alpha的大小保证Taylor公式成立呢?
Zephus
发表于 2022-6-4 12:05
用泰勒展开求的delta x是关键啊
mypro334
发表于 2022-6-4 12:12
看了您写的泰勒公式f(x + Δx) = f(x) + Δx·f'(x)那儿,我想了半天也没想起来有哪个泰勒公式长这样,后来突然想起这个是用微分估计函数值,详见高等数学同济第7版116页。
闲鱼技术01
发表于 2022-6-4 12:19
能问下lr=0.1表示啥吗
Arzie100
发表于 2022-6-4 12:27
是下面的learning_rate , 应该是作者笔误了. 就是一个自定义的值, 因为效果比较好, 所以大家都lr=0.1, lr这种变量学名超参数
acecase
发表于 2022-6-4 12:36
太感谢了