문제 정의

Task-adaptive Pretraining을 사용하면 성능향상에 도움이 된다는 연구결과가 있다. 학습할 데이터를 이용해 pretraining을 진행하는 것은 좋은 효과를 가지고 올 수 있음.

해결 아이디어

TRADE 모델에서 학습할 데이터로 MLM을 진행

진행 상황

1. mlm_pretrain 함수

model에게 mask token을 씌우고 encoder를 통과시켜 pretrain한다.

# train.py

def mlm_pretrain(config, model, loader, n_epochs, epoch, device):
    model.train()
    for step, batch in enumerate(loader):
        input_ids, segment_ids, input_masks, gating_ids, target_ids, guids = [b.to(device) if not isinstance(b, list) else b for b in batch]

        logits, labels = model.forward_pretrain(input_ids, tokenizer, config, device)
        loss = loss_fnc_pretrain(logits.view(-1, config.vocab_size), labels.view(-1))

        loss.backward()
        nn.utils.clip_grad_norm_(model.parameters(), 1.0)
        optimizer.step()
        optimizer.zero_grad()

        if step % 100 == 0:
            print('[%d/%d] [%d/%d] %f' % (epoch, n_epochs, step, len(loader), loss.item()))

foward_pretrain 함수를 추가해준다.

def forward_pretrain(self, input_ids, tokenizer, config, device):
    input_ids, labels = self.mask_tokens(input_ids, tokenizer, config, device)
    encoder_outputs, _ = self.encoder(input_ids=input_ids)
    mlm_logits = self.mlm_head(encoder_outputs)

    return mlm_logits, labels

mask token은 BERT의 기본적 mask fill 방법을 사용한다.
- 80%는 [MASK] token으로 대체한다.
- 10%는 input token을 random word로 대체한다.
- 10%는 바꾸지 않는다.