팔로업 질문 생성(Follow-up Question Generation) 회고 + Rewarding What Matters (2024)은 TOD & 멀티턴 Flan-T5모델 다시 살펴보기

연구해보려고 하는 주제로 FUQ을 다루고 있다.

팔로업질문 우리는 실제 생활에서 언제 느끼고 있지?를 생각해보게 됐다. (연구진행이 막혀서..ㅎ)

팔로업질문 우리는 실제 생활에서 언제 느끼고/쓰고 있지?

한번 다뤄지는 분야?에 따라 타입을 분류 해보면 일반대화(일상대화) / CoQA / 설문중심 / 정보 탐색 중심으로 나눠봤다.

일반 대화 또는 CoQA 관점에서 보면, 핵심은 정보 획득, 이해 확인, 혹은 논의를 더 진전시키기 위한 질문이라는 측면이 맞다. Follow-Up Question Identification: ACL 2020에서는 대화 문맥에서 어떤 질문이 valid한 팔로업인지 판단하는 모델이 제안되었다. 이들은 주제 연결성(topic continuity)과 주제 전환(topic shift)을 모두 고려해 판단한다. (https://aclanthology.org/2020.acl-main.90.pdf?)

설문 중심의 대화라고 하면 Knowledge-Driven Follow-Up Generation: 설문에서 팔로업 질문은 대화 역사 + 배경 지식에 기반해 생성되며, Grice’s Maxims(명확성, 관련성 등)을 적용해 질문 품질을 평가하는 지표를 사용한다. (https://aclanthology.org/2023.paclic-1.12.pdf)

Information-Seeking QA 정보탐색중심의 대화. Q → A → Follow-up Q에 대한 질문을 누군가가 하면 답을 달고 그걸 보고 또다른 화두를 던지거나 하는등의 "사람들이 답변을 읽고 추가로 궁금해 하는 포인트"를 다루는 분야다. (https://arxiv.org/html/2309.05007?)

정리하면 팔로업질문에대한 정의와 평가할수 있는 요소다. 문맥 기반한 연속성이나 질적인 부분은 잘 만들었는가?에 대한 평가 지표가 되겠다.

정보 요청 (Information-Seeking)	부족한 정보를 더 채우기 위한 질문
명료성 / 정확성 (Clarification)	앞선 발화의 의미를 명확히 하기 위한 질문
문맥 기반 연속성 (Contextual Coherence)	대화 주제와 잘 연계되어 자연스럽게 이어지는 질문
질적 요소 (Quality)	유익하고, 간결하고, 목적에 부합하는 질문

일단 회고를 해보면..

실제 서비스에 나이브한 RAG 파이프라인(질의 → 후보 문서 검색 → 답변 생성)을 운영 중.
응답 신뢰도가 낮거나 문맥이 모호할 때, **사용자의 의도를 명확히 하고 누락 정보를 채우는 “후속질문(Follow-up Question)”이 필요하다. 정보가 더 필요하다고 판단하는 경우 어떤 정보가 필요한지를 기준으로 세우고 그에 맞는 후속질문을 잘하는지를 평가하는걸 두는게 이 연구에 핵심이다.
초기 실험은 MultiWOZ를 기반으로 “팔로업 타이밍”을 자동 라벨링 → 태스크오리엔티드한 Flan-T5(small/base/large)로 생성 품질을 베이스라인 평가 → 향후 강화학습(RL)로 팔로업 성능을 끌어올리는 흐름으로 진행했다.
- 일단... 팔로업 타이밍 자동라벨링 부터가 생각 보다 어렵다. (그냥 누가 어디 주워다줬으면...)
- t5로는 멀티턴내에서 문장을 생성하는 용도는 아닌듯하다. instruction-tuned seq2seq 모델이라 “질문에 맞는 답변이나 짧은 문장을 산출”하는 데는 쓸 수 있지만, 대화 히스토리 기반으로 맥락을 추적하면서 자연스러운 후속 질문을 던지는 역할에는 한계가 있다.

최신 TOD 논문에서 Flan-T5를 backbone으로 썼을까?

TOD 연구에서는 오랫동안 seq2seq 구조(BART, T5, GPT-2 encoder-decoder 변형 등)를 많이 사용했다. DST → DPL → RG를 모두 하나의 시퀀스로 풀어내려면 encoder-decoder가 편했기 때문인데

input: history + current user utterance
output: <belief state> <dialogue act> <response>

causal LM(Llama, GPT류)로도 가능하지만, seq2seq는 명시적으로 입력/출력을 분리해주기 때문에 supervised fine-tuning과 teacher forcing이 안정적이기 때문이다.

Flan-T5의 Instruction-tuning 특성상 MultiWOZ 같은 TOD 데이터셋에서 slot prediction + response generation을 한 번에 시키기 위해 instruction-friendly 모델이 필요했는데, Flan-T5가 공개적으로 가장 잘 맞았기 떄문으로 정리해볼수 있겠다.

Rewarding What Matters (2024)은 TOD & 멀티턴 Flan-T5모델로 출력품질까지 포함해서 하나의 파이프라인만으로 좋은 성능을 냈구나 싶다. (다시금 인지ㅎㅎ )

논문에서는 Flan-T5 (base/large) 하나로 전체 TOD 파이프라인을 처리한건데

입력: 사용자 발화 + 대화 히스토리
출력:
1. Belief State (DST: 현재까지 채운 슬롯 집합)
2. Dialogue Act (DPL: 이번 턴에 취할 행위)
3. Response (RG: 사용자에게 보여줄 문장)

즉, Flan-T5는 의도 파악 + 슬롯 채우기 + 응답 생성까지 통합된 모델로 동작시킨거다. 응답생성까지 통합된 모델에서 수행한것이다.

seq2seq 모델이니까, output을 <belief state> <dialogue act> <response> 형태의 토큰 시퀀스로 이어서 응답도 생성하게 학습시킨거다.

이런 식으로 한 번에 생성 → Flan-T5는 단일 모델이지만, 세 가지 서브태스크(DST/DPL/RG)를 동시에 출력

저작자표시 비영리 동일조건 (새창열림)

'ML&AI' 카테고리의 다른 글

Pattern mining (2) : Frequent Pattern Mining (0)	2025.10.02
딥러닝 표현학습의 흐름: 프리트레이닝·파인튜닝·메타러닝·대조학습 그리고 CLIP (1)	2025.09.11
고급기계학습 : (1) 차원의 저주 → (2) 데이터는 사실 매니폴드 위 → (3) 딥러닝은 매니폴드 학습 (0)	2025.09.04
생성형모델로 생성한 이미지 품질을 정량적으로 감지할 수 있을까? EvalGIM, TypeScore 논문리뷰 (2)	2025.08.24
Task-Oriented Dialogue 시스템에서 Follow-up 질문 생성 실험 정리 (Day 3~4) (4)	2025.08.03

아름답게 나이들게 하소서

팔로업 질문 생성(Follow-up Question Generation) 회고 + Rewarding What Matters (2024)은 TOD & 멀티턴 Flan-T5모델 다시 살펴보기

팔로업질문 우리는 실제 생활에서 언제 느끼고/쓰고 있지?

일단 회고를 해보면..

최신 TOD 논문에서 Flan-T5를 backbone으로 썼을까?

'ML&AI' 카테고리의 다른 글

티스토리툴바

팔로업 질문 생성(Follow-up Question Generation) 회고 + Rewarding What Matters (2024)은 TOD & 멀티턴 Flan-T5모델 다시 살펴보기

팔로업질문 우리는 실제 생활에서 언제 느끼고/쓰고 있지?

일단 회고를 해보면..

최신 TOD 논문에서 Flan-T5를 backbone으로 썼을까?

'ML&AI' 카테고리의 다른 글

관련글

티스토리툴바