본문 바로가기
논문리뷰

RAG-RL: Advancing Retrieval-Augmented Generation via RL andCurriculum Learning

by 혜룐 2025. 9. 6.
반응형

검색 증강 생성(RAG) 시스템은 관련 컨텍스트를 식별하는 검색기(retriever)와 그 컨텍스트를 활용하는 답변 생성 모델에 의존한다. 그러나 검색기는 재현율과 정밀도가 완전하지 않아 다운스트림 성능을 제한한다. RAG-RL을 소개하는 논문이다.

https://arxiv.org/pdf/2503.12759v1

주요 내용은 답을 생성할 뿐 아니라 더 큰 집합의 검색된 컨텍스트 가운데서 관련 정보를 식별하고 인용하도록 훈련된 답변 생성 모델로, 관련 문서 식별의 일부 부담을 검색기에서 답변 생성기로 옮기는데 있다. 무관한 패시지 수가 늘어나도 좋은 성능을 냈다는 논문이다.

즉, etriever 성능 recall@5에 크게 의존했던 방식에서 (리랭킹에대한 부분도 있었지) generation model이 직접 irrelevant vs relevant 문서를 구분 → recall@10/25도 활용 가능한걸 입증한 논문이라고 보면 되겠다.

고정밀 검색기(recall@5 최적화)에 대한 의존을 줄이고, 생성 모델이 관련/비관련 컨텍스트를 스스로 구분해 더 긴 후보 목록(recall@10/25)을 다루도록 하자는 관점을 제시한다. 이를 위해 GRPO(Group Relative Policy Optimization)와 규칙 기반 보상(답변 정답성, 인용 정확성/오류 패널티, 포맷 보상)을 사용해 RAG의 답변 생성기를 향상한다.

더 긴 검색 결과 리스트(예: 10개, 25개)를 주었을 때 관련·비관련 문서를 효과적으로 구분할 수 있는 답변 생성 모델
은, 높은 정밀도의 검색기에 덜 의존하면서 더 높은 recall 지표를 달성할수 있다.

RL 방법 GRPO (Group Relative Policy Optimization) 활용했고, 규칙 기반 보상: 답변 정확성, 인용 정확성/오류 패널티, 포맷 준수 했다.
커리큘럼 학습 관찰 쉬운 예제 포함 → 빠른 인용 학습. min-max 스케줄 > 선형 스케줄. RL에서 “쉬운→어려운 순”의 장점은 뚜렷하지 않았다고 한다.
연구의 기여 첫 RLM 기반 답변 생성기 훈련이며 커리큘럼 학습의 다양한 설계 비교/벤치마크. 사후학습(post-training) 요소들의 성능 기여도를 정량화한 논문이다.

 

커리큘럼 학습 설정이 모델 성능에 미치는 영향도

  1. 쉬운 예제를 포함하면, 모델은 어떤 문맥이 관련 있는지 식별할 필요가 없으므로 더 빨리 인용 방법을 학습한다.
  2. 선형 커리큘럼(쉬운→어려운)은 성능이 낮았으며, min-max 커리큘럼(가장 쉬운→가장 어려운)이 더 효과적이었다.
  3. 이전 연구들(Bengio et al., 2009)처럼 쉬운→어려운 순서로 데이터셋을 배열하는 방식은, RL 기반 사후학습에서는 뚜렷한 이점을 보이지 않았다.

이러한 관찰은, 난이도가 다른 학습 샘플을 구성하는 방식이 샘플 효율성과 일반화를 높여, 특정 기술(예: 인용 생성)을 학습하게 할 수 있음을 시사한다.

RAG시스템 흐름(역사라고 하기에 좀 거창해서 ㅎ)

 

  • 한 방향: 인코더 모델(임베딩 생성기)의 개선 (Lee et al., 2025a; Muennighoff et al., 2025).
  • 다른 방향: 여러 문서를 연결해주는 retrieval 시스템 설계 (Guo et al., 2024; Gutiérrez et al., 2025).
  • Rank1(Weller et al., 2025): 테스트 시점에 문서 재랭킹에 추가 연산을 할당해 성능 개선.
  • 최근 시도: LLM의 긴 context window를 활용해 더 많은 문서를 제공했으나, 문서 수가 많아질수록 관련 문맥 식별에 어려움을 겪음.

Multi-Hop Question Answering

멀티-홉 질문 = 여러 문서를 결합해 추론해야 하는 질문. 필요한 정보 조각 수 = “홉(hop)” 수.
Figure 1은 RAG-RL이 멀티-홉 QA 환경에서 어떻게 작동하는지 보여줌.

Reasoning Language Models (RLMs)

OpenAI의 o1 모델 등으로 RLM이 소개되면서, 추론이 필요한 과제에서 뛰어난 성능을 보이는 모델 연구가 활발. R1 공개(DeepSeek-AI, 2025) 이후 수학/논리/코딩 분야에서 소규모 RLM 훈련도 성공적 성과를 보임. 하지만, RAG의 답변 생성기를 위한 RLM은 지금까지 없었다. 이 논문이 최초인듯 하다.

Curriculum Learning

커리큘럼 학습은 학습 샘플을 난이도 순으로 배열해 일반화를 개선하는 접근.

  • QA에서는 사전학습→파인튜닝 데이터셋 간 분포 차이를 줄이는 데 활용.
  • 최신 LLM 연구에서는, 모델이 스스로 풀 수 있는 예제를 훈련셋에 추가하며 점진적으로 난이도를 높이는 방식 등장.
  • RL에서도 점진적으로 더 어려운 환경에 노출시키는 연구들이 있었으나, 효과는 과제 의존적. 일부 연구에서는 성능 개선이 미미.

그래서 어떻게 모델링했는가

Reward Modeling

규칙 기반 보상(rule-based rewards) 은 세 가지 요소로 구성된다. 정답보상 / 인용보상 / 포맷보상이다.

  • Answer Rewards (정답 보상) : 최종 정답이 올바를 경우 보상을 주는것으로 정답 맞추면 +5 보상, 틀리면 0

  • Citation Rewards (인용 보상) : 최종 답에 포함된 인용(citations)이 얼마나 정확한지 보상한다. 올바른 인용 많이 하면 5 하고 틀린인용은 인용갯수 *2만큼 감점한다.

  • Formatting Rewards (포맷 보상) : 출력 포맷 준수를 유도 준수한다.

그리고 토탈보상은

정답 + 인용 정확도 + 포맷 준수 → 모두 합산된 보상이 GRPO에 사용됨. → 실험적으로는 “정확성(correctness)”에 더 큰 가중치를 주었고, 포맷은 보조적.

 모델학습 커리큘럼에 대한 설계부분 리뷰는 스킵한다. 핵심만 정리하면 실험적인 통찰로

  • Min-Max 커리큘럼 > Linear 커리큘럼
  • 쉬운 샘플이 “인용 학습”을 빠르게 촉진
  • RL 기반 사후학습에서는 단순 “쉬운→어려운” 순서 이점이 크지 않았다고 한다.

오늘은 여기까지.... ^^

 

반응형