Skip to content

thisis-hee/Baf_News_Category_Classification

Repository files navigation

뉴스 카테고리 분류

image

1. 전처리

image

  1. 정규표현식을 활용하여 기사 내의 \t, \n 등의 특수문자, 탭, 개행문자들을 제거함
  2. Okt 형태소 분석기를 사용하여 뉴스 기사를 분류 하는 데에 큰 영향을 미치는 명사, 동사, 형용사만 태깅함
  3. TF-IDF 벡터화를 통해 희소문자의 가중치는 크게 주고, 자주 나타나는 문자에는 가중치를 적게 두어 성능을 높임

2. 나이브 베이즈 분류기

image

  1. 베이즈 정리를 기반으로 한 분류기
  2. 문서 분류 문제의 경우 좋은 성능을 보임
  3. 라플라스 스무딩을 적용해 분류 정확도를 높임

2-1. 나이브 베이즈 실제 적용 결과

image image 각 카테고리의 학습 데이터가 200개가 채 되지 않았지만 괜찮은 성능을 보임

3. BERT

  1. 구글의 pre-trained 모델
  2. transformer를 이용해 구현된 모델
  3. 자연어 처리에 높은 성능을 보임 image image 버트 토큰화 이후의 MAX_LEN 길이는 512 이내여야 하므로, gensim의 summarization을 활용하여 기사 요약 후, 토큰화 길이를 512 이내로 만들어줌
  • gensim summarization 사용 시 python 버전 다운그레이드 후 이용해주어야 함 (버전 충돌)

3-1. BERT 결과

image 5 에폭만으로도 좋은 정확도를 얻을 수 있었음 더 좋은 GPU를 사용해 에폭 수를 늘리면 더 높아질 수 있을 것이라 예상함

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published