Optimization

New Optimization

学习前的参数说明

upload successful

优化算法的目的

  • 就是找到模型中的参数使得Loss最小化

upload successful

On-Line VS Off-Line

  • On-line : 在训练的time step上只加载部分数据
  • off-line: 加载所有数据

下面的方法建立在off-line cases

GD( Gradient Descent)

  • 梯度下降:最基础的优化算法,基本不用,因为每次迭代需要计算所有样本的梯度

SGD(Stochastic Gradient Descent,SGD)

  • 随机梯度下降:在每个训练步骤中,SGD随机选择一个样本(或一小批样本,称为mini-batch)来计算梯度,而不是使用整个数据集。

: 具体来说,SGD的每个epoch(也就是遍历一次整个训练集)中的每个步骤如下:

随机选择一个样本(或一小批样本)。
计算该样本(或样本批次)对于模型参数的梯度。
按照梯度的方向,更新模型参数。
这种方法的优点是计算速度快,因为每次只需要计算一个样本(或一小批样本)的梯度。而且,由于每次都是随机选择样本,这也增加了模型的鲁棒性,可以防止模型过拟合。

然而,SGD的缺点: 是由于每次只使用一个样本(或一小批样本)来更新模型参数,因此训练过程可能会比较不稳定,损失函数可能会有大的波动。为了解决这个问题,通常会使用一些技巧,如学习率衰减、动量(momentum)等。

	如果样本数为100个,使用SGD算法的话一次epoch模型参数会被更新100次

mini-batch SGD (小批量随机梯度下降)

SGD: 是单样本的梯度计算,很难完全利用硬件资源。

mini-batch SGD:

  • Copyright: Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.
  • Copyrights © 2018-2023 CXX
  • Visitors: | Views:

请我喝杯咖啡吧~

支付宝
微信