나름분류해서써보기173 AI 사용 환경에서 데이터를 보호하는 법을 주제로, Copilot for Microsoft 365를 위한 Microsoft Purview제품 소개 https://learn.microsoft.com/ko-kr/purview/use-microsoft-purview-governance-portal 1부 사용자 프롬프트 모니터링 되고 있다. RAG에 사용되는 문서들의 민감도 자동라벨링 AIHUB (preview)사용자 활동 볼 수 있음 -민감데이터가 프롬프트에 들어있는지 -개인정보등이 애플리케이션통해서 프롬프트로 제공되고 있는지를 볼 수있음 *유해한문서(기밀문서등)인 경우 -> 차단 / 민감한 질문을 하는경우에도 access접근권한 하지 못하는 기능 *조직내에서 ms코파일럿을 사용하는 예시로, 데이터 접근이 있는 파일에 대해 요약을 요청. -파일의 속성 라벨링 / 접근권한에 코파일럿 사용여부 -민감도 자동 라벨링 classification 2부 2024. 3. 27. The Claude 3 Model Family: Opus, Sonnet, Haiku Claude 3 Claude 3 Haiku는 거의 즉각적으로 응답하는 가장 빠르고 가장 작은 모델이고, Claude 3 Sonnet은 기술과 속도의 이상적인 균형을 이루는 모델이며, Claude 3 Opus는 고도로 복잡한 태스크(추론, 수학, 코딩 분야)에서 최고의 성능을 제공하는 가장 지능적인 모델이다. Claude 3 Haiku 파운데이션 모델 특징 Claude 3 제품군 중 가장 빠르고 컴팩트한 모델로, 거의 즉각적인 반응성과 인간의 상호 작용을 모방한 원활한 생성형 인공 지능(AI) 경험을 위해 설계. 예를 들어, 차트와 그래프가 포함된 arXiv(~1만 개 토큰)에 대한 데이터 밀도가 높은 연구 논문을 3초 이내에 읽을 수 있음 이미지-텍스트 비전 기능을 갖추고 있고, 영어 이외의 여러 언어를.. 2024. 3. 25. smart chunking 나이브청킹 vs 스마트청킹 https://ambikasukla.substack.com/p/efficient-rag-with-document-layout 스마트청킹은 23년 12월4일에 공유드렸던 내용입니다. 해당내용 기반으로 kbpro버전2가 진행되고 있습니다. 청킹될 원문의 결(=content type) content type에 따라 색인 전처리 과정 원문 요약시 프롬프트에 원문 특성을 살려서 요약으로 개선 가능 검색 전처리 과정 후보군을 넘길때 비즈니스 로직으로 개선 답변 전처리 과정 content type을 포함하여 답변프롬프트를 만들었을때 전후로 비교 layout오픈소스 특징 llama_index을 사용하여, 청킹된 데이터에 문서 구조,표등 마크다운 형태를 유지(논문이나 보고서형태의경우 유용하게 .. 2024. 3. 23. Corrective RAG https://huggingface.co/google-t5/t5-large 검색 평가자를 활용하여 검색된 문서의 품질을 평가하는 방법론이다. CRAG는 검색 결과를 개선하기 위해, 핵심정보에 초점을 맞추기 위한 알고리즘을 사용한다. 방법론 입력쿼리와 검색된 문서가 주어지면, 검색된 문서의 관련성 점수를 추정한다. 척도 정확, 부정확, 애매 정확 더 정밀한 데이터로 정제한다.(long context reorder처럼 해도될듯) 부정확 검색된 문서는 버리고, 2차 검색을 한다. T5-large모델 https://huggingface.co/google-t5/t5-large 응용한다면 현재 후보군에서 답변을 할수 없다면 정보없음으로 응답하도록 되어있는데, 이런 경우 부정확/애매 라고 판단하고 2차 검색을 시도하.. 2024. 3. 23. 이전 1 ··· 3 4 5 6 7 8 9 ··· 44 다음