Skip to content

Releases: bab2min/kiwipiepy

0.16.2

20 Nov 15:02
Compare
Choose a tag to compare
  • Stopwordsblocklist를 동시에 사용할 때 종종 크래시가 발생하던 문제가 수정되었습니다.

0.16.1

04 Nov 10:49
Compare
Choose a tag to compare
  • Kiwi 0.16.1의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.16.1 )이 반영되었습니다.
    • -다. 형태로 끝나는 문장어미가 SB로 과도하게 오분석되던 버그가 수정되었습니다.
  • 한국어 템플릿을 위한 편의 기능인 Kiwi.template이 추가되었습니다.

0.16.0

31 Aug 07:59
Compare
Choose a tag to compare

기능 추가/개선

  • Kiwi 0.16.0의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.16.0 )이 반영되었습니다.
    • PretokenizedSpan과 관련된 기능 추가
    • 순서 있는 글머리 기호를 나타내는 SB 태그 추가. 가., 나., 다. 등의 글머리 기호가 별도의 문장으로 분리되지 않도록 개선
    • 사용자지정 태그로 사용할 수 있는 USER0 ~ USER4 태그 추가
  • 정규표현식 기반으로 형태소를 사전에 추가하는 Kiwi.add_re_word 메소드 추가
  • Token.span 추가
  • Token.user_value 추가 및 user_value를 설정할 수 있도록 Kiwi.add_user_word 계열의 메소드에 user_value 인자 추가
  • deprecated 되었던 메소드들 제거
  • Kiwi.add_pre_analyzed_word에서 시작위치/끝위치를 지정하지 않았지만 그 값이 자명한 경우, 자동으로 채워넣는 기능 추가
  • Kiwi.split_into_sentsstopwords 인자 추가

기여자

  • @Bing-su KiwiTokenizer.__repr__에서 발생하는 오류 수정 (#134)

Full Changelog: v0.15.2...v0.16.0

0.15.2

14 Jun 12:37
Compare
Choose a tag to compare
  • Kiwi 0.15.2의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.15.2 )이 반영되었습니다.
    • 매우 긴 텍스트를 분석할 때 시작 지점이 잘못 나오는 버그 수정
    • U+10000 이상의 문자가 여러 개 포함된 텍스트를 SwTokenizer로 encode할때 offset이 누락되는 버그 수정
  • Kiwi.join에서 형태소 결합 시 띄어쓰기 유무를 설정할 수 있는 기능 추가
  • Kiwi.tokenize로 형태소 분석 후 다시 Kiwi.join을 수행하는 경우 원본 텍스트의 띄어쓰기를 최대한 반영하여 결합하도록 개선

0.15.1

07 May 11:36
Compare
Choose a tag to compare
  • Kiwi 0.15.1의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.15.1 )이 반영되었습니다.
  • Subword Tokenizer를 제공하는 모듈인 kiwipiepiy.sw_tokenizer이 추가되었습니다.
  • huggingface의 tokenizer와 호환가능한 Subword Tokenizer를 제공하는 모듈인 kiwipiepy.transformers_addon이 추가되었습니다.

0.15.0

23 Mar 01:41
Compare
Choose a tag to compare
  • Kiwi 0.15.0의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.15.0 )이 반영되었습니다.
    • 둘 이상의 형태소로 더 잘게 분리될 수 있는 형태소를 추가 분리하는 옵션인 splitComplex 도입
    • 부사파생접사를 위한 XSM 태그 추가 및 이에 해당하는 형태소 -이, -히, -로, -스레 추가
    • 조사/어미에 덧붙는 받침을 위한 Z_CODA 태그 추가 및 조사/어미에서 자동으로 Z_CODA를 분절해내는 기능 추가
    • 형태 분석 및 언어 모델 탐색 속도 최적화
    • 옛한글 문자를 특수 기호로 분리하지 않고 일반 한글과 동일하게 처리하도록 개선
    • 문장 분리 성능 개선
      • 2010. 01. 01. 와 같이 공백이 포함된 serial 패턴 처리 보강
      • Dr., Mr. 와 같이 약자 표현의 .이 마침표로 처리되지 않도록 보강
      • '-음'으로 문장이 끝나는 경우를 판별하기 위해 음/EF 형태소 추가 및 모델 보강
    • 한 문장 내에서 사전에 미등재된 형태가 256개 이상 등장할 때 형태소 분석 결과가 잘못 나오는 문제 해결
    • 특정 경우에 문장 분리가 전혀 되지 않던 버그 수정(#111)
    • 이모지 등 U+10000 이상의 유니코드 문자를 모두 한자로 분류하던 버그 수정
  • Kiwi.glueinsert_new_lines 인자가 추가되었습니다.
  • 형태소의 사전 표제형을 보여주는 Token.lemma 프로퍼티가 추가되었습니다.

0.14.1

23 Dec 16:29
Compare
Choose a tag to compare
  • Kiwi 0.14.1의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.14.1 )이 반영되었습니다.
    • 특정 텍스트에 대해 형태소 분할 없이 전체 결과를 그대로 반환하는 오류 해결
    • EF 뒤에 보조용언이 따라오는 경우 문장을 분리하지 않도록 개선
  • 이제 Python 3.11을 지원합니다.
    • 추가로 이제 macOS용 binary wheel을 arm64, x86_64로 나누어서 제공합니다.

0.14.0

02 Sep 12:52
aa5ce04
Compare
Choose a tag to compare
  • Kiwi 0.14.0의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.14.0 )이 반영되었습니다.
    • 동사 '이르다'의 모호성 해소 기능 추가
    • W_SERIAL 태그 추가. SS 태그를 SSO, SSC 태그로 세분화
    • 인용문 등으로 둘러싸인 안긴 문장이 포함된 문장에 대해 문장 분리 성능 개선 (#84)
    • 랬/댔/잖의 분석 정확도 개선
    • 내장 오타 사전 추가. 사용을 원치 않는 경우 Kiwi(load_typo_dict=False)로 끌 수 있습니다.
  • 각종 버그가 수정되었습니다.
    • 오타 교정 기능이 켜져 있는 경우 Kiwi.join이 실패하는 문제 해결 (#92)
    • 사용자 사전에 숫자를 포함한 NNP를 추가해도 반영이 되지 않는 문제 해결 (#90, #93)
    • Kiwi.join이 일부 텍스트를 잘못 결합시키는 오류 해결 (#91)

0.13.1

05 Jul 13:26
ce39f8f
Compare
Choose a tag to compare
  • Kiwi.join 이 일부 입력에 대해 오류를 발생시키는 문제(#87)를 해결했습니다

0.13.0

28 Jun 16:13
Compare
Choose a tag to compare
  • Kiwi 0.13.0의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.13.0 )이 반영되었습니다.
    • 형태소 분석 시 간단한 오타 교정을 수행하는 기능 추가
    • SkipBigram 언어 모델 추가. Kiwi(model_type='sbg') 로 사용 가능
    • 분석 결과에서 개별 형태소의 오타 교정 비용을 반환하는 Token.typo_cost 필드, 오타 교정 전 형태를 반환하는 Token.raw_form 필드 추가
  • 각종 버그가 수정되었습니다.
    • 배포 판에서 stopwords.txt 파일이 누락되었던 버그 수정