본문 바로가기
ML&AI

팔로업 질문 생성(Follow-up Question Generation) 회고 + Rewarding What Matters (2024)은 TOD & 멀티턴 Flan-T5모델 다시 살펴보기

by 혜룐 2025. 9. 6.
반응형

연구해보려고 하는 주제로 FUQ을 다루고 있다.

팔로업질문 우리는 실제 생활에서 언제 느끼고 있지?를 생각해보게 됐다. (연구진행이 막혀서..ㅎ) 

팔로업질문 우리는 실제 생활에서 언제 느끼고/쓰고 있지?

한번 다뤄지는 분야?에 따라 타입을 분류 해보면 일반대화(일상대화) / CoQA / 설문중심 / 정보 탐색 중심으로 나눠봤다.

일반 대화 또는 CoQA 관점에서 보면, 핵심은 정보 획득, 이해 확인, 혹은 논의를 더 진전시키기 위한 질문이라는 측면이 맞다. Follow-Up Question Identification: ACL 2020에서는 대화 문맥에서 어떤 질문이 valid한 팔로업인지 판단하는 모델이 제안되었다. 이들은 주제 연결성(topic continuity)과 주제 전환(topic shift)을 모두 고려해 판단한다.  (https://aclanthology.org/2020.acl-main.90.pdf?)

판단하는 모델

설문 중심의 대화라고 하면 Knowledge-Driven Follow-Up Generation: 설문에서 팔로업 질문은 대화 역사 + 배경 지식에 기반해 생성되며, Grice’s Maxims(명확성, 관련성 등)을 적용해 질문 품질을 평가하는 지표를 사용한다. (https://aclanthology.org/2023.paclic-1.12.pdf)

Information-Seeking QA 정보탐색중심의 대화. Q → A → Follow-up Q에 대한 질문을 누군가가 하면 답을 달고 그걸 보고 또다른 화두를 던지거나 하는등의 "사람들이 답변을 읽고 추가로 궁금해 하는 포인트"를 다루는 분야다. (https://arxiv.org/html/2309.05007?)

정리하면 팔로업질문에대한 정의와 평가할수 있는 요소다. 문맥 기반한 연속성이나 질적인 부분은 잘 만들었는가?에 대한 평가 지표가 되겠다.

정보 요청 (Information-Seeking) 부족한 정보를 더 채우기 위한 질문
명료성 / 정확성 (Clarification) 앞선 발화의 의미를 명확히 하기 위한 질문
문맥 기반 연속성 (Contextual Coherence) 대화 주제와 잘 연계되어 자연스럽게 이어지는 질문
질적 요소 (Quality) 유익하고, 간결하고, 목적에 부합하는 질문

 

일단 회고를 해보면..

  • 실제 서비스에 나이브한 RAG 파이프라인(질의 → 후보 문서 검색 → 답변 생성)을 운영 중.
  • 응답 신뢰도가 낮거나 문맥이 모호할 때, **사용자의 의도를 명확히 하고 누락 정보를 채우는 “후속질문(Follow-up Question)”이 필요하다. 정보가 더 필요하다고 판단하는 경우 어떤 정보가 필요한지를 기준으로 세우고 그에 맞는 후속질문을 잘하는지를 평가하는걸 두는게 이 연구에 핵심이다.
  • 초기 실험은 MultiWOZ를 기반으로 “팔로업 타이밍”을 자동 라벨링 → 태스크오리엔티드한 Flan-T5(small/base/large)로 생성 품질을 베이스라인 평가 → 향후 강화학습(RL)로 팔로업 성능을 끌어올리는 흐름으로 진행했다.
    • 일단... 팔로업 타이밍 자동라벨링 부터가 생각 보다 어렵다. (그냥 누가 어디 주워다줬으면...)
    • t5로는 멀티턴내에서 문장을 생성하는 용도는 아닌듯하다. instruction-tuned seq2seq 모델이라 “질문에 맞는 답변이나 짧은 문장을 산출”하는 데는 쓸 수 있지만, 대화 히스토리 기반으로 맥락을 추적하면서 자연스러운 후속 질문을 던지는 역할에는 한계가 있다.

최신 TOD 논문에서 Flan-T5를 backbone으로 썼을까?

TOD 연구에서는 오랫동안 seq2seq 구조(BART, T5, GPT-2 encoder-decoder 변형 등)를 많이 사용했다. DST → DPL → RG를 모두 하나의 시퀀스로 풀어내려면 encoder-decoder가 편했기 때문인데

  • input: history + current user utterance
  • output: <belief state> <dialogue act> <response>

causal LM(Llama, GPT류)로도 가능하지만, seq2seq는 명시적으로 입력/출력을 분리해주기 때문에 supervised fine-tuning과 teacher forcing이 안정적이기 때문이다.

Flan-T5의 Instruction-tuning 특성상 MultiWOZ 같은 TOD 데이터셋에서 slot prediction + response generation을 한 번에 시키기 위해 instruction-friendly 모델이 필요했는데, Flan-T5가 공개적으로 가장 잘 맞았기 떄문으로 정리해볼수 있겠다.

Rewarding What Matters (2024)은 TOD & 멀티턴 Flan-T5모델로 출력품질까지 포함해서 하나의 파이프라인만으로 좋은 성능을 냈구나 싶다. (다시금 인지ㅎㅎ )

논문에서는 Flan-T5 (base/large) 하나로 전체 TOD 파이프라인을 처리한건데

  • 입력: 사용자 발화 + 대화 히스토리
  • 출력:
    1. Belief State (DST: 현재까지 채운 슬롯 집합)
    2. Dialogue Act (DPL: 이번 턴에 취할 행위)
    3. Response (RG: 사용자에게 보여줄 문장)

 

즉, Flan-T5는 의도 파악 + 슬롯 채우기 + 응답 생성까지 통합된 모델로 동작시킨거다. 응답생성까지 통합된 모델에서 수행한것이다.

seq2seq 모델이니까, output을 <belief state> <dialogue act> <response> 형태의 토큰 시퀀스로 이어서 응답도 생성하게 학습시킨거다.

논문에서 발췌
이런 식으로 한 번에 생성 → Flan-T5는 단일 모델이지만, 세 가지 서브태스크(DST/DPL/RG)를 동시에 출력

 

 

반응형