카테고리 없음

문서요약 프롬프트 Chain of Density

혜룐 2024. 3. 23. 08:32

요약에 포함할 정보의 적절한 양을 선택하는것은 어려운 작업이다. 좋은 요약은 정보의 밀도가 높아야 하고 자세하고 Entity중심이어야 한다. 이런 상충 관계를 잘 이해하기 위해 Chain of Density 프롬프트를 사용하여 점점 더 밀도가 높은 요약을 요청하는데 목적이 있다. 정보손실이 발생하는 단점이 있어 관련된 논문을 리뷰하는데 목적이 있다. 

좋은 요약 : 정보 손실을 최대한으로 줄이고, 주요 엔티티티가 잘 압축되는것.

방법론은 아래와 같고, 논문에 있는 프롬프트를 참고하여 그대로 수행해보면 된다. 누락된 엔티티를 계속 추가하여 문장의 길이는 유지하되 손실되는데이터 없이 요약문을 뽑아내는걸 확인 할수있다. 

방법론

초기 요약이 생성되고, 점점 엔티티 밀도를 높이는 과정을 반복하는것이다.

첫번째는 1~3개의 초기 엔티티에만 초점을 맞추기 때문에 주요 엔티티가 적다. 엔티티수를 늘리면서 같은 길이를 유지하기 위해, 이전 요약에서 의미 있는 내용을 제거하는 대신, 융합/압축 방식으로 프롬프팅을 하는것이다.

  • 여러번에 걸쳐 요약문을 만든다. (5번)
    • 처음에는 sparse한 요약을 작성한다. 
    • 중요한데 누락된 키워드를 찾게 한다. 
      • • Relevant: to the main story.

        • Specific: descriptive yet concise (5 words or fewer).

        • Novel: not in the previous summary.

        • Faithful: present in the Article.

        • Anywhere: located anywhere in the Article.

    • 이전에 missing entities를 추가 / 갱신해 다음 요약에서 Denser summary로 출력되도록 하는것이다.
  • 논문에 의하면 5번이 가장 좋은 요약문을 만들어 낸다고 한다.

 

부록