Skip to content

Latest commit

 

History

History
57 lines (43 loc) · 4.83 KB

README.md

File metadata and controls

57 lines (43 loc) · 4.83 KB

😁 HAPPY 😁: HAte sPeech Purification for You

demo_resize_final

  • 댓글을 작성하면, 분류 모델이 혐오 표현인지를 먼저 판별합니다.
  • 혐오 표현으로 분류될 경우, 토큰 분류 모델을 이용해 문장의 어느 부분이 혐오 표현인지를 찾아 알려줍니다.
  • 생성 모델을 이용해, 문장의 순화된 내용을 생성하여 사용자에게 순화 방향을 제시해 줍니다.

악성 댓글 분류 및 순화 재생성 프로젝트

  • 딥러닝을 이용해 댓글의 혐오 여부를 분류하고, 혐오표현으로 판단된 경우 의미를 유지한 문장을 재생성합니다.
  • 이 과정을 통해 사용자의 문제의식을 일으키고 자발적 개선을 유도합니다.

목차

  1. 팀원 소개
  2. 서비스 ARCHITECTURE
  3. 모델 구조
  4. 데이터
  5. 추가 정보

팀원 소개

김준휘 류재환 박수현 박승현 설유민
image image image image image
Classification model
Classification API
Data Collecting
Generation Model
Generation API
Data Collecting
Classification Model
Data Guideline
Data Collecting
Data Checking
Generation Model
Database
BackEnd
FrontEnd
Data Web
Data Collecting
Generation Model
Data Collecting
Data Checking

서비스 ARCHITECTURE

service_architecture

모델 구조

CLASSIFICATION MODEL

classification_model_architecture

  • Backbone model로는 가장 높은 F1 score를 보이면서도 합리적인 추론 시간을 보인 🤗 beomi/KcElectra-base-v2022 모델을 사용했습니다.
    • F1 score 90.88
    • RPS : 173

GENERATION MODEL

generation_model_architecture

  • Reward + Prompt model을 최종 채택했습니다.

데이터

CLASSIFICATION MODEL

  • 혐오 문장 분류 모델의 학습에는 한국어 뉴스기사 댓글에서 수집한 혐오표현 데이터셋인 K-MHaS를 사용했습니다.
  • 혐오표현 토큰 분류 모델의 학습에는 네이버 뉴스와 유튜브 영상 댓글에서 수집한 한국어 혐오표현 데이터셋인 KOLD를 사용했습니다.

GENERATION MODEL : Parallel Dataset 제작

  • 혐오표현을 제거하되 의미를 유지한 문장 재생성 학습을 위해, 직접 사용자의 참여를 받아 혐오 표현 - 순화 표현 parallel dataset(총 3,133개)을 구축했습니다.
  • 혐오표현은 APEACH, BEEP!, K-MHaS, KOLD 데이터셋의 혐오표현을 사용했습니다.
  • hate_purificate_parallel_dataset.csv 파일로 사용할 수 있습니다

추가 정보