梯度是多元函数在某一点处的一阶变化信息所组成的向量。如果把函数图像看作一座山,那么梯度指向"爬升最快"的方向,而负梯度则指向"下降最快"的方向。优化算法的核心目标,就是在参数空间中高效地寻找使损失函数最小化的最优参数。
1. 梯度的定义与梯度下降法
- 梯度的定义与几何意义
- 梯度下降法的核心思想与更新公式
- 学习率的选择策略
2. 梯度下降的三种形式及其优缺点
- 批量梯度下降(Batch Gradient Descent, BGD)
- 随机梯度下降(Stochastic Gradient Descent, SGD)
- 小批量梯度下降(Mini-Batch Gradient Descent, MBGD)
- 三种方法的核心差异与适用场景
3. 高级优化算法:Momentum、RMSprop 与 Adam
- Momentum(动量法):物理直觉、指数加权移动平均
- RMSprop:自适应步长、二阶矩估计
- Adam:一阶矩与二阶矩结合、偏差修正
4. 拉格朗日乘子法与 KKT 条件
- 约束优化问题的数学表达
- 拉格朗日函数的构建
- KKT 条件与互补松弛条件
- 应用实例:带不等式约束的最小化问题
笔记二.pdf