전체 글185 Greedy 그리디서치 , beam 빔서치 언어모델은 컨텍스트(=토큰시퀀스)를 입력받아, 다음 토큰이 나타날 확률을 출력으로 반환한다. 즉 모델의 출력 확률 분포로부터 다음 토큰을 반복해서 선택하는 과정이 바로 문장생성 태스크다. 문제는 특정 컨텍스트 다음에 올 토큰으로 무수히 많은 경우의 수가 존재한다. 이론적으로는 다음 단어를 하나 선택해야 할 때 어휘 집합 크기만큼의 경우의 수가 생길 수 있다. 이렇게 반복적으로 다음 토큰을 생성할 경우 무수히 많은 가짓수가 파생되며 모든 경우의 수를 계산해 보는것는것은 사실상 불가능 하다.Greedy search model.generate파라미터의 do_sample=False를 주므로써 확률값이 높은 단어를 다음 단어로 결정되도록하면 그리디서치를 수행하게 된다. 그리디서치는 매 단계에서 가장 높은 확률을 .. 2024. 5. 1. AI 사용 환경에서 데이터를 보호하는 법을 주제로, Copilot for Microsoft 365를 위한 Microsoft Purview제품 소개 https://learn.microsoft.com/ko-kr/purview/use-microsoft-purview-governance-portal 1부 사용자 프롬프트 모니터링 되고 있다. RAG에 사용되는 문서들의 민감도 자동라벨링 AIHUB (preview)사용자 활동 볼 수 있음 -민감데이터가 프롬프트에 들어있는지 -개인정보등이 애플리케이션통해서 프롬프트로 제공되고 있는지를 볼 수있음 *유해한문서(기밀문서등)인 경우 -> 차단 / 민감한 질문을 하는경우에도 access접근권한 하지 못하는 기능 *조직내에서 ms코파일럿을 사용하는 예시로, 데이터 접근이 있는 파일에 대해 요약을 요청. -파일의 속성 라벨링 / 접근권한에 코파일럿 사용여부 -민감도 자동 라벨링 classification 2부 2024. 3. 27. The Claude 3 Model Family: Opus, Sonnet, Haiku Claude 3 Claude 3 Haiku는 거의 즉각적으로 응답하는 가장 빠르고 가장 작은 모델이고, Claude 3 Sonnet은 기술과 속도의 이상적인 균형을 이루는 모델이며, Claude 3 Opus는 고도로 복잡한 태스크(추론, 수학, 코딩 분야)에서 최고의 성능을 제공하는 가장 지능적인 모델이다. Claude 3 Haiku 파운데이션 모델 특징 Claude 3 제품군 중 가장 빠르고 컴팩트한 모델로, 거의 즉각적인 반응성과 인간의 상호 작용을 모방한 원활한 생성형 인공 지능(AI) 경험을 위해 설계. 예를 들어, 차트와 그래프가 포함된 arXiv(~1만 개 토큰)에 대한 데이터 밀도가 높은 연구 논문을 3초 이내에 읽을 수 있음 이미지-텍스트 비전 기능을 갖추고 있고, 영어 이외의 여러 언어를.. 2024. 3. 25. smart chunking 나이브청킹 vs 스마트청킹 https://ambikasukla.substack.com/p/efficient-rag-with-document-layout 스마트청킹은 23년 12월4일에 공유드렸던 내용입니다. 해당내용 기반으로 kbpro버전2가 진행되고 있습니다. 청킹될 원문의 결(=content type) content type에 따라 색인 전처리 과정 원문 요약시 프롬프트에 원문 특성을 살려서 요약으로 개선 가능 검색 전처리 과정 후보군을 넘길때 비즈니스 로직으로 개선 답변 전처리 과정 content type을 포함하여 답변프롬프트를 만들었을때 전후로 비교 layout오픈소스 특징 llama_index을 사용하여, 청킹된 데이터에 문서 구조,표등 마크다운 형태를 유지(논문이나 보고서형태의경우 유용하게 .. 2024. 3. 23. 이전 1 ··· 6 7 8 9 10 11 12 ··· 47 다음