본문 바로가기

ML&AI14

토크나이져 Tokenization 고유한 토큰의 수를 줄이고, 전체 토큰 크기를 줄임으로써 비용 절감 효과를 얻는다는 것은, 모델이 처리해야 하는 토큰의 양이 줄어들면, 계산 비용이 절감된다는 의미이다.1. 토큰화(Tokenization)토큰화는 텍스트를 단어 또는 문장 단위로 분할하는 작업입니다. 이는 모든 텍스트 처리에서 중요한 첫 단계로, 언어에 따라 다르게 처리될 수 있습니다.예상 문제:토큰화가 무엇인지 설명하시오.정답: 토큰화는 텍스트를 단어 또는 문장 단위로 분할하는 과정이다.BPE (Byte-Pair Encoding) 설명:**BPE (Byte-Pair Encoding)**는 단어를 서브워드(subword) 단위로 분할하여 토크나이제이션을 수행하는 방법입니다. 이는 특히 희귀한 단어들을 처리하는 데 유리하며, NLP에서 주로.. 2024. 10. 20.
사용자 행동데이터 RAG - 1 작년에는  B2B에 활용하기 위해 RAG를 검토해왔다. 이번에는 사용자의 행동데이터(대화,구매이력등)를 density하게 저장 -> 사용자 질문이 들어오면 행동데이터검색 -> 행동데이터를 컨텍스트로 두고 -> llm에 사용자 질문 + 질문의도 + 기존 행동패턴을 활용하여 개인화 Query rewrite를 reformulation -> Function-Call 수행 -> FunctionCall수행한 Action에 해당 하는 사용자 행동데이터도 density하게 저장하여 개인화 정보를 관리 한다.사용자 행동데이터 적재(Memory)행동(대화,구매이력)에 따른 중요도를 두어 카테고리에 맞게 '일반패턴' vs '핵심패턴' 을 타임시리즈로 저장한다.행동을 카테고리로 분류하여 저장한다. 나와의 대화 / 단체 대화 .. 2024. 6. 30.
Autoregressive Model Beats Diffusion: Llama forScalable Image Generation https://arxiv.org/pdf/2406.06525LlamaGen은 대형 언어 모델의 '다음 토큰 예측' 방식을 시각적 생성 도메인에 적용한 새로운 이미지 생성 모델이다. 쉽게 말해 GPT처럼 다음 데이터를 예측하고 생성하는 방식을 도입해 이미지를 생성하는 연구 논문이다.FID(Frechet Inception Distance)는 이미지 생성 모델의 성능을 평가하는 지표이다. FID는 생성된 이미지와 실제 이미지의 품질을 비교하여 두 분포 간의 유사성을 측정한다. 낮은 FID 값은 생성된 이미지가 실제 이미지와 더 유사하다는 것을 의미한다. 이는 생성된 이미지의 품질과 다양성을 평가하는 데 사용된다. FID는 이미지의 특징을 추출한 후 프레셰 분포를 계산하여 두 데이터셋 간의 차이를 수치화한다.Im.. 2024. 6. 23.
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment 작년에 GEval을 RAG정성평가 자동화에 활용했다. 테스트셋 자동화추출도 GPT로 진행했고, 검색/답변생성하는 부분에도 Gpt를 사용했다.사용하면서 느낀건, 질문과 답변 자동화추출시 정답의 일관성도 보장되지 않을수 있어, 같은 질문에 정답답변도 3회이상 돌려서 응집도가 높은 정답답변 1개만 뽑는 과정이 필요하다는 것이다.목표정성평가를 자동화한다.정성평가 항목문장이 자연스러운가 = 0,1후보군을 참고하여 만든 답변이 사실을 얼마나 참고했나gpt4가 만든 답변을 기준으로 두고 비교한다.참고 논문G-Eval: NLG Evaluation using GPT-4 with Better Human Alignmenthttps://arxiv.org/abs/2303.16634  개인적인 평가지표 메트릭정확성 (Accura.. 2024. 6. 9.