-
Rethinking Batch Normalization in TransformersARXIV/NLP 2020. 3. 25. 19:24
https://arxiv.org/abs/2003.07845v1
Rethinking Batch Normalization in Transformers
The standard normalization method for neural network (NN) models used in Natural Language Processing (NLP) is layer normalization (LN). This is different than batch normalization (BN), which is widely-adopted in Computer Vision. The preferred use of LN in
arxiv.org
abstract
NLP에서 사용되는 Neural network 모델의 표준 정규화 방법은 layer normalization(LN)이다. computer vision에서 널리 사용하는 batch normalizaion과는 다르다. NLP에서 LN을 선호하는 것은 BN의 사용이 NLP에서 성능 저하를 발생 시킨다는 것을 경험적 관찰로 알 수 있다. 하지만 이유에 대한 이해가 항상 분명하지 않다.
이 논문에서는 BN의 성능이 LN에 비해 왜 좋지 않은지 이해하기 위해 NLP transformer model의 연구를 수행한다. 이 연구에서 NLP데이터 통계가 훈련하는 동안 배치 차원에서 크게 변동하는 것을 발견하였다. 이는 BN이 구현되면 불안정성이 발생함을 보여준다.
이를 해결하기 위해, 1) BN의 zero-mean normalization 완화 2) 변동을 안정화를 위해 배치 통계대신 2차 평균을 통합 3) 역전파를 통해 순방향에서 running 통계를 통합하여 새로운 Power normalization(PN)을 제안한다.
'ARXIV > NLP' 카테고리의 다른 글
A Primer in BERTology: What we know about how BERT works (0) 2020.03.02