2주 간의 KoELECTRA 개발기 - 2부
2주 간의 KoELECTRA 개발기 - 1부
내가 만든 ELECTRA를 Huggingface Transformers로 Porting하기
나만의 BERT Wordpiece Vocab 만들기

나만의 BERT Wordpiece Vocab 만들기

개인적으로 Pretrained Language Model 성능에 큰 영향을 주는 것 중 하나로 Vocab quality라고 생각한다.

이번 포스트에서는 tokenization의 방법 중 하나인 Wordpiece를 이용하여 어떻게 vocab을 만드는지 알아보려 한다:)

Read More
TPU를 이용하여 Electra Pretraining하기