알게된 점

  1. 논문의 X_t 는 t-l 부터 t 까지의 대화를 보는 구조이지만, 베이스라인 코드는 그 대화 내에서 t 턴에는 이전 대화를 모두 [SEP] 로 연결하였다.
  2. train, dev 데이터셋은 dialogue_level = False 가 사용되기 전에 대화 단위로 분리되어 독립적이다.
  3. dialogue_level = False 를 하면 dialogue 단위로 묶이지 않고 turn 들이 하나의 리스트에 모두 연결되어 다른 대화의 turn 들이 섞이지 않을까 걱정했지만, example 을 만들 때 같은 대화 내에서만 turn 을 처리하므로 상관없었다.
  4. decoder 의 max_len 은 슬롯의 밸류 중 가장 토큰이 많이 사용되는 길이를 말한다.
  5. decoder 에 입력되는 input_ids 는 고정된 채로 w 가 k 에 따라 바뀌면서 수행된다. k 번 돌면서 나오는 d_jk 는 j 슬롯에 대한 value 토큰을 의미한다. 1번 : 서울, 2번 : 롯데, 3번 : 호텔, 4번 : [SEP], 이후 : [PAD]..