Abstract BERT(Bidirectional Encoder Representations from Transformers)는 모든 layer에서 left, right context를 모두 참조하여 unlabeled text로부터 deep bidirectional representations를
https://arxiv.org/abs/1409.3215 Abstract multi-layer LSTM 구조를 이용하여 sequence를 학습하는 방법을 제안 Introduction DNN은 speech recognotion, visual object recognition과 같은 어려운 문제들에 대해 매우 좋은 성능을 보여