요즘 코드들을 보고 있으면 Learning rate warm-up scheduler가 종종 보인다.
이는 논문 Bag of Tricks for Image Classification with Convolutional Neural Networks (2018)
에 나온 학습 방법 중 하나라고 하며
https://arxiv.org/abs/1812.01187
구체적인 내용은 아래와 같다.
해석해보면,
Training이 시작될 때, 모든 parameters들은 보통 random values(initialized)이므로,
최종 solution에서 멀리 떨어져 있다.
이 때, 너무 큰 learning rate를 사용하면 numerical instability가 발생할 수 있기에,
초기에 작은 learning rate를 사용하고, training과정이 안정되면 초기 learning rate로 전환하는 방법이다.
'딥러닝관련 > Techniques' 카테고리의 다른 글
CosineAnnealingLR (0) | 2021.10.20 |
---|