2주 간의 KoELECTRA 개발기 - 2부
2주 간의 KoELECTRA 개발을 마치고, 그 과정을 글로 남기려고 한다.
이 글을 읽으신 분들은 내가 했던 삽질(?)을 최대한 덜 하길 바라는 마음이다:)
2부에는 Pretraining, Finetuning 등을 다룰 예정이다.
Github Repo: https://github.com/monologg/KoELECTRA
2주 간의 KoELECTRA 개발을 마치고, 그 과정을 글로 남기려고 한다.
이 글을 읽으신 분들은 내가 했던 삽질(?)을 최대한 덜 하길 바라는 마음이다:)
2부에는 Pretraining, Finetuning 등을 다룰 예정이다.
Github Repo: https://github.com/monologg/KoELECTRA
2주 간의 KoELECTRA 개발을 마치고, 그 과정을 글로 남기려고 한다.
이 글을 읽으신 분들은 내가 했던 삽질(?)을 최대한 덜 하길 바라는 마음이다:)
1부에는 실제 학습을 돌리기 전까지의 과정을 다룰 예정이다.
Github Repo: https://github.com/monologg/KoELECTRA
BERT
, ALBERT
, ELECTRA
등을 직접 Pretrain하게 되면 모델이 Tensorflow의 ckpt 형태로 저장이 된다.
이번 글에서는 tensorflow ckpt
를 transformers의 pytorch ckpt
로 변환하는 법을 알아보겠다🤗
개인적으로 Pretrained Language Model 성능에 큰 영향을 주는 것 중 하나로 Vocab quality
라고 생각한다.
이번 포스트에서는 tokenization의 방법 중 하나인 Wordpiece
를 이용하여 어떻게 vocab을 만드는지 알아보려 한다:)
최근 ELECTRA의 공식 코드가 공개되면서 한국어 Corpus에 직접 Electra를 만들게 되었다.
이번 글에서는 GCP에서 TPU를 어떻게 사용했는지 그 과정을 공유해보려 한다.