본문 바로가기
카테고리 없음

웹 기반 코퍼스 분석 도구 / 유사도 기반의 저자판별

by 혜룐 2024. 11. 12.

도구의 기능 http://corpus.korea.ac.kr

  • 단어빈도
    • 빈도는 관심의 정도를 반영하는 지표
  • 공기어 분석
    • 대상어랑 같은 문맥에서 함께 나타나는 단어
      • 문맥 
        • 같은 문장에 나타나는 단어를 문맥으로 본다.
        • 윈도우사이즈
        • 연관성:상호정보, TfIdf
    • T점수
      • 같은 문장에서 두 단어가 우연히 나타날 빈도보다 실제로 함게 나타난 빈도가 높을수록 강한 공기관계가 성립한다.
  • 관련어
    • 대상어와 의미적으로 관련있는 단어
      • 동의어, 반의어, 상/하위어, 유사어등

 

전처리과정

  • 문자 정규화
    • 호환 문자를 대표형으로 변환
  • 문장, 문단 구분
    • 문장은 <s>, 문단 <p>태그로 구분
  • 한자 한글 변환(변기)
    • 한자어-한글 사전, 한자-한글 테이블, 두음법칙, 최장일치분석법
    • 유니코드 한자-한글 자동 변환 연구 및 구현
  • 형태소분석

 

대체어 및 외래어 이형태 검출 --> 소멸된 단어가 후보가 될 수 있음

  • 대체어 및 외래어 이형태 검출
    • 사전에서 동의어, 빈도의 추이, 공기어벡터유사도 
  • 사용 빈도 추이
  • 철자적 유사성
    • 낮은 편집거리
    • 공통 접두사 또는 접미사를 갖는 단어(손목시계, 팔목시계

고유어와 외래어

동형이의어 - 용례 확인이 필요


유사도 기반의 저자판별

  • 문서 -> 벡터표현
  • 저자 판별을 위한 대상 문서와 각 문서들과의 유사도를 계산해서 가장 유사한 문서를 판별
  • 유사도 기반의 저자판별 고려사항
    • 벡터 표현방법
      • 벡터의 값(자질)
      • 자질의 종류(피쳐)
      • 벡터의 크기(디멘젼)
    • 자질값
      • raw frequency(절대빈도)
      • z-score
      • relative frequency(상대빈도)
      • Standard deviation-normalized frequency(표준편차 정규화 빈도)
    • 벡터의 크기
      • 벡터의 크기는 자질 선택: 관련없는 자질의 사용은 성능 하락의 요인이다.
      • 전체의 문서에서 빈도순으로 20, 40, 80 빈도값을 늘려가며, 피쳐 셀렉션 안할때까지 실험
    • 유사도척도