Optimization

Word count: 450 | Reading time≈ 1 min

学习前的参数说明

upload successful

优化算法的目的

upload successful

On-Line VS Off-Line

下面的方法建立在off-line cases

GD( Gradient Descent)

SGD(Stochastic Gradient Descent，SGD)

: 具体来说，SGD的每个epoch（也就是遍历一次整个训练集）中的每个步骤如下：

随机选择一个样本（或一小批样本）。
计算该样本（或样本批次）对于模型参数的梯度。
按照梯度的方向，更新模型参数。
这种方法的优点是计算速度快，因为每次只需要计算一个样本（或一小批样本）的梯度。而且，由于每次都是随机选择样本，这也增加了模型的鲁棒性，可以防止模型过拟合。

然而，SGD的缺点: 是由于每次只使用一个样本（或一小批样本）来更新模型参数，因此训练过程可能会比较不稳定，损失函数可能会有大的波动。为了解决这个问题，通常会使用一些技巧，如学习率衰减、动量（momentum）等。

	如果样本数为100个，使用SGD算法的话一次epoch模型参数会被更新100次

mini-batch SGD (小批量随机梯度下降）

SGD：是单样本的梯度计算，很难完全利用硬件资源。

mini-batch SGD:

Copyright： Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.