연구해보려고 하는 주제로 FUQ을 다루고 있다.
팔로업질문 우리는 실제 생활에서 언제 느끼고 있지?를 생각해보게 됐다. (연구진행이 막혀서..ㅎ)
팔로업질문 우리는 실제 생활에서 언제 느끼고/쓰고 있지?
한번 다뤄지는 분야?에 따라 타입을 분류 해보면 일반대화(일상대화) / CoQA / 설문중심 / 정보 탐색 중심으로 나눠봤다.
일반 대화 또는 CoQA 관점에서 보면, 핵심은 정보 획득, 이해 확인, 혹은 논의를 더 진전시키기 위한 질문이라는 측면이 맞다. Follow-Up Question Identification: ACL 2020에서는 대화 문맥에서 어떤 질문이 valid한 팔로업인지 판단하는 모델이 제안되었다. 이들은 주제 연결성(topic continuity)과 주제 전환(topic shift)을 모두 고려해 판단한다. (https://aclanthology.org/2020.acl-main.90.pdf?)

설문 중심의 대화라고 하면 Knowledge-Driven Follow-Up Generation: 설문에서 팔로업 질문은 대화 역사 + 배경 지식에 기반해 생성되며, Grice’s Maxims(명확성, 관련성 등)을 적용해 질문 품질을 평가하는 지표를 사용한다. (https://aclanthology.org/2023.paclic-1.12.pdf)
Information-Seeking QA 정보탐색중심의 대화. Q → A → Follow-up Q에 대한 질문을 누군가가 하면 답을 달고 그걸 보고 또다른 화두를 던지거나 하는등의 "사람들이 답변을 읽고 추가로 궁금해 하는 포인트"를 다루는 분야다. (https://arxiv.org/html/2309.05007?)
정리하면 팔로업질문에대한 정의와 평가할수 있는 요소다. 문맥 기반한 연속성이나 질적인 부분은 잘 만들었는가?에 대한 평가 지표가 되겠다.
| 정보 요청 (Information-Seeking) | 부족한 정보를 더 채우기 위한 질문 |
| 명료성 / 정확성 (Clarification) | 앞선 발화의 의미를 명확히 하기 위한 질문 |
| 문맥 기반 연속성 (Contextual Coherence) | 대화 주제와 잘 연계되어 자연스럽게 이어지는 질문 |
| 질적 요소 (Quality) | 유익하고, 간결하고, 목적에 부합하는 질문 |
일단 회고를 해보면..
- 실제 서비스에 나이브한 RAG 파이프라인(질의 → 후보 문서 검색 → 답변 생성)을 운영 중.
- 응답 신뢰도가 낮거나 문맥이 모호할 때, **사용자의 의도를 명확히 하고 누락 정보를 채우는 “후속질문(Follow-up Question)”이 필요하다. 정보가 더 필요하다고 판단하는 경우 어떤 정보가 필요한지를 기준으로 세우고 그에 맞는 후속질문을 잘하는지를 평가하는걸 두는게 이 연구에 핵심이다.
- 초기 실험은 MultiWOZ를 기반으로 “팔로업 타이밍”을 자동 라벨링 → 태스크오리엔티드한 Flan-T5(small/base/large)로 생성 품질을 베이스라인 평가 → 향후 강화학습(RL)로 팔로업 성능을 끌어올리는 흐름으로 진행했다.
- 일단... 팔로업 타이밍 자동라벨링 부터가 생각 보다 어렵다. (그냥 누가 어디 주워다줬으면...)
- t5로는 멀티턴내에서 문장을 생성하는 용도는 아닌듯하다. instruction-tuned seq2seq 모델이라 “질문에 맞는 답변이나 짧은 문장을 산출”하는 데는 쓸 수 있지만, 대화 히스토리 기반으로 맥락을 추적하면서 자연스러운 후속 질문을 던지는 역할에는 한계가 있다.
최신 TOD 논문에서 Flan-T5를 backbone으로 썼을까?
TOD 연구에서는 오랫동안 seq2seq 구조(BART, T5, GPT-2 encoder-decoder 변형 등)를 많이 사용했다. DST → DPL → RG를 모두 하나의 시퀀스로 풀어내려면 encoder-decoder가 편했기 때문인데
- input: history + current user utterance
- output: <belief state> <dialogue act> <response>
causal LM(Llama, GPT류)로도 가능하지만, seq2seq는 명시적으로 입력/출력을 분리해주기 때문에 supervised fine-tuning과 teacher forcing이 안정적이기 때문이다.
Flan-T5의 Instruction-tuning 특성상 MultiWOZ 같은 TOD 데이터셋에서 slot prediction + response generation을 한 번에 시키기 위해 instruction-friendly 모델이 필요했는데, Flan-T5가 공개적으로 가장 잘 맞았기 떄문으로 정리해볼수 있겠다.
Rewarding What Matters (2024)은 TOD & 멀티턴 Flan-T5모델로 출력품질까지 포함해서 하나의 파이프라인만으로 좋은 성능을 냈구나 싶다. (다시금 인지ㅎㅎ )
논문에서는 Flan-T5 (base/large) 하나로 전체 TOD 파이프라인을 처리한건데
- 입력: 사용자 발화 + 대화 히스토리
- 출력:
- Belief State (DST: 현재까지 채운 슬롯 집합)
- Dialogue Act (DPL: 이번 턴에 취할 행위)
- Response (RG: 사용자에게 보여줄 문장)
즉, Flan-T5는 의도 파악 + 슬롯 채우기 + 응답 생성까지 통합된 모델로 동작시킨거다. 응답생성까지 통합된 모델에서 수행한것이다.
seq2seq 모델이니까, output을 <belief state> <dialogue act> <response> 형태의 토큰 시퀀스로 이어서 응답도 생성하게 학습시킨거다.



'ML&AI' 카테고리의 다른 글
| Pattern mining (2) : Frequent Pattern Mining (0) | 2025.10.02 |
|---|---|
| 딥러닝 표현학습의 흐름: 프리트레이닝·파인튜닝·메타러닝·대조학습 그리고 CLIP (1) | 2025.09.11 |
| 고급기계학습 : (1) 차원의 저주 → (2) 데이터는 사실 매니폴드 위 → (3) 딥러닝은 매니폴드 학습 (0) | 2025.09.04 |
| 생성형모델로 생성한 이미지 품질을 정량적으로 감지할 수 있을까? EvalGIM, TypeScore 논문리뷰 (2) | 2025.08.24 |
| Task-Oriented Dialogue 시스템에서 Follow-up 질문 생성 실험 정리 (Day 3~4) (4) | 2025.08.03 |