문제 정의
성능 높은 모델들에 대한 리뷰
해결 아이디어
논문 : https://arxiv.org/abs/2010.14061
진행 상황
1. Key Idea
- 이전 논문들에서는 Encoder에서 BERT를 사용하지만, Value Generation부분에서는 RNN Decoder를 사용하는 아이러니..
- Purely Transformer-based framework를 사용
즉, Single BERT가 Encoder와 Decoder 모두에서 work
→ 이렇게 하면 prediction objective와 value generation objective가 BERT 하나만 optimize하게 됨
- Encoder(BERT)에서 사용한 hidden states 값을 Decoder(BERT)에서 Re-use가 가능해짐
2. Input
- Input으로는 SOM-DST와 같은 구조를 지님
- 아래 그림과 같이 D1, D2, S1을 INPUT으로 넣고, OUTPUT으로 S2를 출력
![[Zeng et al., arXiv 2020]](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/5c305e40-e65b-4578-acf3-b2b6e478d94f/Untitled.png)
[Zeng et al., arXiv 2020]