본문 바로가기

전체 글166

웹 기반 코퍼스 분석 도구 / 유사도 기반의 저자판별 도구의 기능 http://corpus.korea.ac.kr단어빈도빈도는 관심의 정도를 반영하는 지표공기어 분석대상어랑 같은 문맥에서 함께 나타나는 단어문맥 같은 문장에 나타나는 단어를 문맥으로 본다.윈도우사이즈연관성:상호정보, TfIdfT점수같은 문장에서 두 단어가 우연히 나타날 빈도보다 실제로 함게 나타난 빈도가 높을수록 강한 공기관계가 성립한다.관련어대상어와 의미적으로 관련있는 단어동의어, 반의어, 상/하위어, 유사어등 전처리과정문자 정규화호환 문자를 대표형으로 변환문장, 문단 구분문장은 , 문단 태그로 구분한자 한글 변환(변기)한자어-한글 사전, 한자-한글 테이블, 두음법칙, 최장일치분석법유니코드 한자-한글 자동 변환 연구 및 구현형태소분석 대체어 및 외래어 이형태 검출 --> 소멸된 단어가 후보가.. 2024. 11. 12.
텍스트마이닝 1. 정확률 (Accuracy)정확률은 전체 데이터 중에서 올바르게 예측한 비율을 나타내는 지표입니다. 즉, 모델이 얼마나 정확하게 예측했는지를 평가합니다.정의:정확률 (Accuracy)=올바르게 예측한 샘플 수전체 샘플 수=TP+TNTP+TN+FP+FN\text{정확률 (Accuracy)} = \frac{\text{올바르게 예측한 샘플 수}}{\text{전체 샘플 수}} = \frac{TP + TN}{TP + TN + FP + FN}정확률 (Accuracy)=전체 샘플 수올바르게 예측한 샘플 수​=TP+TN+FP+FNTP+TN​TP (True Positive): 실제로 긍정인 데이터를 긍정으로 예측한 경우TN (True Negative): 실제로 부정인 데이터를 부정으로 예측한 경우FP (False P.. 2024. 10. 20.
자료구조 트리(Tree)트리: 노드와 엣지로 구성된 계층적 데이터 구조.루트 트리(Rooted Tree): 하나의 노드를 루트로 지정한 트리.포레스트(Forest): 트리의 집합, 즉 연결되지 않은 트리 여러 개.내부 노드(Internal Node): 자식 노드를 가진 노드.외부 노드(External Node, Leaf): 자식 노드가 없는 노드.완전 이진 트리(Complete Binary Tree, CBT): 모든 레벨이 채워져 있거나, 마지막 레벨에서 왼쪽부터 채워진 이진 트리.MB 힙(Max Binary Heap): 최대 힙, 부모 노드가 자식 노드보다 큰 이진 트리.힙 정렬(Heap Sort): 힙을 이용한 정렬 알고리즘. Max Heap을 기반으로 배열을 오름차순으로 정렬.그래프(Graph)그래프: 정점.. 2024. 10. 20.
스테밍 vs 레마타이제이션 1. 스테밍(Stemming)정의: 스테밍은 단어에서 접미사나 어미를 단순히 잘라내는 방법으로, 어근(stem)을 추출하는 기법입니다.특징:단순하고 빠른 방식.어근이 반드시 실제 단어일 필요는 없습니다.규칙 기반으로 접미사나 어미를 제거하여 단어를 변환합니다.문법적 정보나 의미는 고려하지 않습니다.예시:"running" → "run""fishing" → "fish""automate" → "automat" (정확한 단어 형태가 아님)장점: 빠르고 대규모 데이터에서 사용하기에 적합.단점: 정확도가 낮고, 단어의 문법적 의미를 무시하며, 결과적으로 비정상적인 어근을 추출할 수 있습니다.2. 레마타이제이션(Lemmatization)정의: 레마타이제이션은 단어를 **사전형(lemma)**으로 변환하는 기법입니다... 2024. 10. 20.