도구의 기능 http://corpus.korea.ac.kr
- 단어빈도
- 빈도는 관심의 정도를 반영하는 지표
- 공기어 분석
- 대상어랑 같은 문맥에서 함께 나타나는 단어
- 문맥
- 같은 문장에 나타나는 단어를 문맥으로 본다.
- 윈도우사이즈
- 연관성:상호정보, TfIdf
- 문맥
- T점수
- 같은 문장에서 두 단어가 우연히 나타날 빈도보다 실제로 함게 나타난 빈도가 높을수록 강한 공기관계가 성립한다.
- 대상어랑 같은 문맥에서 함께 나타나는 단어
- 관련어
- 대상어와 의미적으로 관련있는 단어
- 동의어, 반의어, 상/하위어, 유사어등
- 대상어와 의미적으로 관련있는 단어
전처리과정
- 문자 정규화
- 호환 문자를 대표형으로 변환
- 문장, 문단 구분
- 문장은 <s>, 문단 <p>태그로 구분
- 한자 한글 변환(변기)
- 한자어-한글 사전, 한자-한글 테이블, 두음법칙, 최장일치분석법
- 유니코드 한자-한글 자동 변환 연구 및 구현
- 형태소분석
대체어 및 외래어 이형태 검출 --> 소멸된 단어가 후보가 될 수 있음
- 대체어 및 외래어 이형태 검출
- 사전에서 동의어, 빈도의 추이, 공기어벡터유사도
- 사용 빈도 추이
- 철자적 유사성
- 낮은 편집거리
- 공통 접두사 또는 접미사를 갖는 단어(손목시계, 팔목시계
고유어와 외래어
동형이의어 - 용례 확인이 필요
유사도 기반의 저자판별
- 문서 -> 벡터표현
- 저자 판별을 위한 대상 문서와 각 문서들과의 유사도를 계산해서 가장 유사한 문서를 판별
- 유사도 기반의 저자판별 고려사항
- 벡터 표현방법
- 벡터의 값(자질)
- 자질의 종류(피쳐)
- 벡터의 크기(디멘젼)
- 자질값
- raw frequency(절대빈도)
- z-score
- relative frequency(상대빈도)
- Standard deviation-normalized frequency(표준편차 정규화 빈도)
- 벡터의 크기
- 벡터의 크기는 자질 선택: 관련없는 자질의 사용은 성능 하락의 요인이다.
- 전체의 문서에서 빈도순으로 20, 40, 80 빈도값을 늘려가며, 피쳐 셀렉션 안할때까지 실험
- 유사도척도
- 벡터 표현방법