본문 바로가기
ML&AI

대화 히스토리를 기반으로 이미 확보된 정보와 남은 불확실성을 구분하고,fallback 상황에서 정보 획득을 극대화하는 질문 정책을 학습할 수 있는가?

by 혜룐 2026. 1. 4.
반응형

"명시적인 상태 추적(DST) 모듈 없이, Decoder-only 모델이 대화 히스토리만을 보고 정보 공백을 파악하여 최적의 질문 정책을 세울 수 있는가?" 챗봇언어엔진과 에이전트 시스템을 개발해오면서 NLP에 변화와 챌린지를 몸소 느끼고 있다. 대학원 졸업 논문을 진행중이고 거의 마무리가 되어간다. 회고처럼 작성해보자:)

https://rhr0916.tistory.com/386

 

Task-Oriented Dialogue 시스템에서 Follow-up 질문 생성 실험 정리 (Day 3~4)

멀티턴 대화 환경에서 follow-up question이 실제로 필요한지를 판단하고, 그에 맞는 적절한 질문을 생성하도록 모델을 학습시키는 실험을 진행하고 있다. 실험의 핵심 목표는 단순히 질문을 생성하

rhr0916.tistory.com

https://rhr0916.tistory.com/390

 

팔로업 질문 생성(Follow-up Question Generation) 회고 + Rewarding What Matters (2024)은 TOD & 멀티턴 Flan-T5모델

연구해보려고 하는 주제로 FUQ을 다루고 있다.팔로업질문 우리는 실제 생활에서 언제 느끼고 있지?를 생각해보게 됐다. (연구진행이 막혀서..ㅎ) 팔로업질문 우리는 실제 생활에서 언제 느끼고/

rhr0916.tistory.com

 

대화 히스토리를 암묵적인 상태로 활용하여 fallback 상황에서 정보 획득을 극대화하는 질문 정책을 선택하도록 유도될 수 있는가?

시스템이 아직 답을 낼 수 없을 때,
어떤 질문을 던져야 가장 빨리 다음 상태로 넘어가는가

이건 기존 Reward-oriented TOD 논문들이 아직 다루지 않은 영역이다. 모델에게 '현재 확보된 슬롯 리스트'를 주지 않고 오직 대화 텍스트만 입력함. 대신 보상 함수($R_{slot}$)를 통해 새로운 슬롯을 인지했을 때만 높은 점수를 주어, 모델이 스스로 히스토리와 쿼리 사이의 정보 공백을 파악하도록 유도하는 내용이 연구의 주된 내용이다.

학습 과정에서 모델에게는 현재 확보된 슬롯 정보가 명시적으로 제공되지 않았으며, 오직 대화 텍스트만이 입력 시퀀스로 전달되었습니다. 대신 GRPO(Group Relative Policy Optimization) 알고리즘을 활용하여, 응답 생성 후 새롭게 확보된 슬롯 정보량($\Delta_{slot}$)에 따라 보상을 부여하는 방식을 채택하였습니다. 초기 모델(v1)은 질문 마크나 길이 제한 등 형식적인 보상에만 치중하는 경향을 보였으나, 슬롯 보상 가중치($\gamma_{slot}$)를 상향하고 탐색 범위를 조정한 개선 모델(v2)부터는 거대 모델(15B)의 제로샷 성능을 상회하는 정보 획득 능력을 보이기 시작했습니다.

최종 단계인 v3(Warm-start) 실험에서는 v2에서 생성된 우수한 샘플들로 지도 학습(SFT)을 먼저 수행한 후 강화학습을 진행하였습니다. 그 결과, 학습 초기부터 매우 안정적인 수렴 곡선을 그렸다. 

정성적 평가에서도 v3 모델은 시스템 태그나 메타 지시어 노출 없이 매우 자연스러운 구어체로 질문을 구성하였으며, 특히 한 문장에 5~6개의 질문을 몰아치는 '과잉 질문' 현상을 통해 모델이 히스토리내의 정보 불확실성을 수치적으로 인지하고 이를 해소하려는 정책을 인지하고 있구나도 중간과정에서도 볼수있었다. 

Saved detailed results to outputs/baseline_eval/qwen3b_grpo_v3/detailed_results.csv
Saved summary metrics to outputs/baseline_eval/qwen3b_grpo_v3/summary_metrics.json


================================================================================
EVALUATION SUMMARY
================================================================================


Slot-based Metrics:
  Precision: 0.0013
  Recall:    0.0013
  F1:        0.0013


Reward-based Metrics (보상함수와 직접 비교 가능):
  Actual Slot Gain:     3.2835
  Normalized Slot Gain: 0.3283
  Slots Before (avg):   5.1848
  Slots After (avg):    3.2835


Question Quality:
  Ends with Q-mark:     0.4324
  Single question:      0.2470
  Non-Yes/No:           0.5035
  Length OK (15-25):    0.1270
  Has slot keywords:    0.8190


Semantic Similarity:
  BLEU:       0.0122
  ROUGE-L:    0.1221
  BERTScore F1: 0.8443


Slot Relevance:
  Relevance Score: 0.1994

F1 지표는 단일 슬롯을 묻는 'Gold 정답'과의 일치도를 측정하는데,  v3의 행동: 하지만 v3는 한 번의 질문에 평균 3.28개의 슬롯을 포함하는 복합 질문을 수행합니다. 정답지와 "똑같이" 말하지 않기 때문에 F1은 낮게 나오지만, 의도했던 것처럼 실제 대화의 턴 최적화 = 효율은 좋다고 해석할수있다. 베이스라인 모델들이 한 턴에 1개 미만의 슬롯을 확보할 때, v3는 3개 이상의 정보를 한 번에 요청합니다.

채워야 하는 슬롯만이 아닌, v2 대비 유의미하게 상승한 Slot Relevance (0.1994) 수치는, 질문이 단순히 슬롯을 나열하는 것이 아니라 문맥에 맞는 적절한(Relevant) 내용이라고 볼수잇다.

v3(SFT+GRPO) 모델 평가 결과, 단순히 정보를 많이 캐묻는 것을 넘어 질문의 질적 수준(Relevance)이 유의미하게 향상되었다고 볼수있다. 특히 Slot Relevance Score가 이전 버전인 v2의 0.149에서 0.199로 크게 상승했다는 점입니다. 이는 단순히 강화학습(RL)만으로는 도달하기 어려웠던 '문맥에 적합한 질문 생성' 능력이 SFT Warm-start를 통해얻었다고 생각한다. (sft만 추가했기 때문에)

형식적 지표인 Single Question(0.247)이나 Length OK(0.127)의 하락은 모델이 지능적으로 보상 트레이드오프(Trade-off)를 수행한 결과인거 같다.. 모델은 엄격한 길이 제한 보상(+1.0)을 포기하는 대신, 정보 획득을 통해 얻을 수 있는 더 큰 보상을 챙기는 전략적 선택을 했을거다. 

 

반응형