본문 바로가기

ML6

AI 사용 환경에서 데이터를 보호하는 법을 주제로, Copilot for Microsoft 365를 위한 Microsoft Purview제품 소개 https://learn.microsoft.com/ko-kr/purview/use-microsoft-purview-governance-portal 1부 사용자 프롬프트 모니터링 되고 있다. RAG에 사용되는 문서들의 민감도 자동라벨링 AIHUB (preview)사용자 활동 볼 수 있음 -민감데이터가 프롬프트에 들어있는지 -개인정보등이 애플리케이션통해서 프롬프트로 제공되고 있는지를 볼 수있음 *유해한문서(기밀문서등)인 경우 -> 차단 / 민감한 질문을 하는경우에도 access접근권한 하지 못하는 기능 *조직내에서 ms코파일럿을 사용하는 예시로, 데이터 접근이 있는 파일에 대해 요약을 요청. -파일의 속성 라벨링 / 접근권한에 코파일럿 사용여부 -민감도 자동 라벨링 classification 2부 2024. 3. 27.
The Claude 3 Model Family: Opus, Sonnet, Haiku Claude 3 Claude 3 Haiku는 거의 즉각적으로 응답하는 가장 빠르고 가장 작은 모델이고, Claude 3 Sonnet은 기술과 속도의 이상적인 균형을 이루는 모델이며, Claude 3 Opus는 고도로 복잡한 태스크(추론, 수학, 코딩 분야)에서 최고의 성능을 제공하는 가장 지능적인 모델이다. Claude 3 Haiku 파운데이션 모델 특징 Claude 3 제품군 중 가장 빠르고 컴팩트한 모델로, 거의 즉각적인 반응성과 인간의 상호 작용을 모방한 원활한 생성형 인공 지능(AI) 경험을 위해 설계. 예를 들어, 차트와 그래프가 포함된 arXiv(~1만 개 토큰)에 대한 데이터 밀도가 높은 연구 논문을 3초 이내에 읽을 수 있음 이미지-텍스트 비전 기능을 갖추고 있고, 영어 이외의 여러 언어를.. 2024. 3. 25.
효과적으로 문장을 분리하는 방법론 Document Loader(pdf) 선택지 고려사항 텍스트를 원형 그대로 잘 가져오는가 한글 인코딩 특수문자 메타데이터의 종류를 잘 추출하는가 page_content 페이지번호 표, 차트, 문서의 좌표, 속성(타이틀, 테이블, 이미지, 텍스트) 표나 아미지의 캡션 마크다운형식 문서를 읽는 속도가 얼마나 빠른다 문서의 양이 크다면, 문서 업로드(색인시) 문서를 읽는 속도가 중요 pdfLoader fitz 모든 텍스트를 읽어서 하나의 문자열을 합칠때 유용 페이지 읽는 속도가 가장 빠름 실시간으로 요약본을 받아봐야 할때 = 예를 들면 kbpro웰컴메시지 작성시 유리할듯 페이지 번호 제공 그러나 번호 이외 메타데이터 미지원 이미지만 추출가능 커머스관련 자료에 상품 이미지 그래프나 차트를 이미지로 삽입된 경우 .. 2024. 3. 23.
RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation RAT는 초기 CoT와 작업 프롬프트를 사용하여 유용한 정보를 검색하고, 현재 및 과거 CoT에 기반한 정보로 현재 사고 단계를 수정하는 점진적 접근 방식을 사용한다.. 이 전략은 복잡한 장기 문제 해결 과정에서 인간의 추론 과정이랑 비슷하다고 한다. RAG는 문서와 질문 사이의 유사성을 코사인 유사도를 통해 측정하고, 상위 𝑘개 문서를 LLMs의 프롬프트로 피드하여 정확하고 사실적인 컨텍스트를 제공한다. 그러나 복잡한 추론 작업에서는 효과적인 검색 쿼리로 변환하기 어려울 수 있다. RAG는 한 번에 모든 관련 정보를 검색하지만, 이는 후속 추론 및 생성 단계에서 필요한 "사실"이나 정보를 예측하기 어렵다. COT과정을 거친 답변이, 지나치게 디테일하거나 장황한 답변을 보다 구조화 하여 내려줄수도 있어 .. 2024. 3. 23.