내 맘대로 Introduction language model 이해하려고 보기 시작한 논문 중 두번째. 이 역시 나온지 오래 돼서 지금 보면 뭐 간단해보이기만 하는 논문 같다만, 기존 GPT1 방식처럼 문장을 왼쪽에서 오른쪽으로 다루는 방식에서 양방향으로 다루는 방식이 더 효과적이라는 것을 보이고 fine tuning 시에 네트워크를 추가하거나 구조를 변경하지 않아도 그대로 적용할 수 있도록 간단히 했다. 더불어서 학습 방법론에서도 단순히 다음 단어를 예측하도록 하는 것이 아니라, masked language modeling 일명 가려진 단어 맞추기로 변경했다. masked image modeling을 먼저 알고 보니 여기서 시작됐구나 싶었다. 메모하며 읽기 pre-training 때부터 두 문장 단위로 ..