梯度是多元函数在某一点处的一阶变化信息所组成的向量。如果把函数图像看作一座山,那么梯度指向"爬升最快"的方向,而负梯度则指向"下降最快"的方向。优化算法的核心目标,就是在参数空间中高效地寻找使损失函数最小化的最优参数。

1. 梯度的定义与梯度下降法

- 梯度的定义与几何意义

- 梯度下降法的核心思想与更新公式

- 学习率的选择策略

2. 梯度下降的三种形式及其优缺点

- 批量梯度下降(Batch Gradient Descent, BGD)

- 随机梯度下降(Stochastic Gradient Descent, SGD)

- 小批量梯度下降(Mini-Batch Gradient Descent, MBGD)

- 三种方法的核心差异与适用场景

3. 高级优化算法:Momentum、RMSprop 与 Adam

- Momentum(动量法):物理直觉、指数加权移动平均

- RMSprop:自适应步长、二阶矩估计

- Adam:一阶矩与二阶矩结合、偏差修正

4. 拉格朗日乘子法与 KKT 条件

- 约束优化问题的数学表达

- 拉格朗日函数的构建

- KKT 条件与互补松弛条件

- 应用实例:带不等式约束的最小化问题

笔记二.pdf

呃...你...您好?