나름분류해서써보기173 텍스트마이닝 1. 정확률 (Accuracy)정확률은 전체 데이터 중에서 올바르게 예측한 비율을 나타내는 지표입니다. 즉, 모델이 얼마나 정확하게 예측했는지를 평가합니다.정의:정확률 (Accuracy)=올바르게 예측한 샘플 수전체 샘플 수=TP+TNTP+TN+FP+FN\text{정확률 (Accuracy)} = \frac{\text{올바르게 예측한 샘플 수}}{\text{전체 샘플 수}} = \frac{TP + TN}{TP + TN + FP + FN}정확률 (Accuracy)=전체 샘플 수올바르게 예측한 샘플 수=TP+TN+FP+FNTP+TNTP (True Positive): 실제로 긍정인 데이터를 긍정으로 예측한 경우TN (True Negative): 실제로 부정인 데이터를 부정으로 예측한 경우FP (False P.. 2024. 10. 20. 자료구조 트리(Tree)트리: 노드와 엣지로 구성된 계층적 데이터 구조.루트 트리(Rooted Tree): 하나의 노드를 루트로 지정한 트리.포레스트(Forest): 트리의 집합, 즉 연결되지 않은 트리 여러 개.내부 노드(Internal Node): 자식 노드를 가진 노드.외부 노드(External Node, Leaf): 자식 노드가 없는 노드.완전 이진 트리(Complete Binary Tree, CBT): 모든 레벨이 채워져 있거나, 마지막 레벨에서 왼쪽부터 채워진 이진 트리.MB 힙(Max Binary Heap): 최대 힙, 부모 노드가 자식 노드보다 큰 이진 트리.힙 정렬(Heap Sort): 힙을 이용한 정렬 알고리즘. Max Heap을 기반으로 배열을 오름차순으로 정렬.그래프(Graph)그래프: 정점.. 2024. 10. 20. 스테밍 vs 레마타이제이션 1. 스테밍(Stemming)정의: 스테밍은 단어에서 접미사나 어미를 단순히 잘라내는 방법으로, 어근(stem)을 추출하는 기법입니다.특징:단순하고 빠른 방식.어근이 반드시 실제 단어일 필요는 없습니다.규칙 기반으로 접미사나 어미를 제거하여 단어를 변환합니다.문법적 정보나 의미는 고려하지 않습니다.예시:"running" → "run""fishing" → "fish""automate" → "automat" (정확한 단어 형태가 아님)장점: 빠르고 대규모 데이터에서 사용하기에 적합.단점: 정확도가 낮고, 단어의 문법적 의미를 무시하며, 결과적으로 비정상적인 어근을 추출할 수 있습니다.2. 레마타이제이션(Lemmatization)정의: 레마타이제이션은 단어를 **사전형(lemma)**으로 변환하는 기법입니다... 2024. 10. 20. 토크나이져 Tokenization 고유한 토큰의 수를 줄이고, 전체 토큰 크기를 줄임으로써 비용 절감 효과를 얻는다는 것은, 모델이 처리해야 하는 토큰의 양이 줄어들면, 계산 비용이 절감된다는 의미이다.1. 토큰화(Tokenization)토큰화는 텍스트를 단어 또는 문장 단위로 분할하는 작업입니다. 이는 모든 텍스트 처리에서 중요한 첫 단계로, 언어에 따라 다르게 처리될 수 있습니다.예상 문제:토큰화가 무엇인지 설명하시오.정답: 토큰화는 텍스트를 단어 또는 문장 단위로 분할하는 과정이다.BPE (Byte-Pair Encoding) 설명:**BPE (Byte-Pair Encoding)**는 단어를 서브워드(subword) 단위로 분할하여 토크나이제이션을 수행하는 방법입니다. 이는 특히 희귀한 단어들을 처리하는 데 유리하며, NLP에서 주로.. 2024. 10. 20. 이전 1 2 3 4 5 6 ··· 44 다음