본문 바로가기

나름분류해서써보기173

효과적으로 문장을 분리하는 방법론 Document Loader(pdf) 선택지 고려사항 텍스트를 원형 그대로 잘 가져오는가 한글 인코딩 특수문자 메타데이터의 종류를 잘 추출하는가 page_content 페이지번호 표, 차트, 문서의 좌표, 속성(타이틀, 테이블, 이미지, 텍스트) 표나 아미지의 캡션 마크다운형식 문서를 읽는 속도가 얼마나 빠른다 문서의 양이 크다면, 문서 업로드(색인시) 문서를 읽는 속도가 중요 pdfLoader fitz 모든 텍스트를 읽어서 하나의 문자열을 합칠때 유용 페이지 읽는 속도가 가장 빠름 실시간으로 요약본을 받아봐야 할때 = 예를 들면 kbpro웰컴메시지 작성시 유리할듯 페이지 번호 제공 그러나 번호 이외 메타데이터 미지원 이미지만 추출가능 커머스관련 자료에 상품 이미지 그래프나 차트를 이미지로 삽입된 경우 .. 2024. 3. 23.
문서요약 프롬프트 Chain of Density 요약에 포함할 정보의 적절한 양을 선택하는것은 어려운 작업이다. 좋은 요약은 정보의 밀도가 높아야 하고 자세하고 Entity중심이어야 한다. 이런 상충 관계를 잘 이해하기 위해 Chain of Density 프롬프트를 사용하여 점점 더 밀도가 높은 요약을 요청하는데 목적이 있다. 정보손실이 발생하는 단점이 있어 관련된 논문을 리뷰하는데 목적이 있다. 좋은 요약 : 정보 손실을 최대한으로 줄이고, 주요 엔티티티가 잘 압축되는것. 방법론은 아래와 같고, 논문에 있는 프롬프트를 참고하여 그대로 수행해보면 된다. 누락된 엔티티를 계속 추가하여 문장의 길이는 유지하되 손실되는데이터 없이 요약문을 뽑아내는걸 확인 할수있다. 방법론 초기 요약이 생성되고, 점점 엔티티 밀도를 높이는 과정을 반복하는것이다. 첫번째는 1.. 2024. 3. 23.
RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation RAT는 초기 CoT와 작업 프롬프트를 사용하여 유용한 정보를 검색하고, 현재 및 과거 CoT에 기반한 정보로 현재 사고 단계를 수정하는 점진적 접근 방식을 사용한다.. 이 전략은 복잡한 장기 문제 해결 과정에서 인간의 추론 과정이랑 비슷하다고 한다. RAG는 문서와 질문 사이의 유사성을 코사인 유사도를 통해 측정하고, 상위 𝑘개 문서를 LLMs의 프롬프트로 피드하여 정확하고 사실적인 컨텍스트를 제공한다. 그러나 복잡한 추론 작업에서는 효과적인 검색 쿼리로 변환하기 어려울 수 있다. RAG는 한 번에 모든 관련 정보를 검색하지만, 이는 후속 추론 및 생성 단계에서 필요한 "사실"이나 정보를 예측하기 어렵다. COT과정을 거친 답변이, 지나치게 디테일하거나 장황한 답변을 보다 구조화 하여 내려줄수도 있어 .. 2024. 3. 23.
RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval 대부분의 기존 방식은 검색 말뭉치에서 짧게 연속된 청크만 검색하므로 전체 문서 컨텍스트에 대한 전체적인 이해가 제한된다. 예를 들어 상위 k개의 검색된 짧은 연속 텍스트는 질문에 답하기에 충분한 컨텍스담지 못한다. 인접한 청크만 사용한 경우, 거리가 먼 의존성이 있는 청크는 후보군에 포함되지 못할 수 있다. 모델들은 장거리 컨텍스트를 활용하지 못하며, 특히 관련 정보가 긴 컨텍스트 내에 포함되어 있을 때 컨텍스트 길이가 증가함에 따라 성능이 감소하는 경향이 있다. 또한, 긴 컨텍스트의 사용은 비용이 많이 들고 느리다는 문제가 있다. 텍스트 청크를 재귀적으로 임베딩, 클러스터링, 요약하는 새로운 접근 방식을 도입하여 아래에서 위로 다양한 수준의 요약 트리를 구축한다. 추론 시 RAPTOR 모델은 이 트리에.. 2024. 3. 23.