Releases: bab2min/kiwipiepy
Releases · bab2min/kiwipiepy
0.16.2
0.16.1
- Kiwi 0.16.1의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.16.1 )이 반영되었습니다.
-다.
형태로 끝나는 문장어미가 SB로 과도하게 오분석되던 버그가 수정되었습니다.
- 한국어 템플릿을 위한 편의 기능인
Kiwi.template
이 추가되었습니다.
0.16.0
기능 추가/개선
- Kiwi 0.16.0의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.16.0 )이 반영되었습니다.
- PretokenizedSpan과 관련된 기능 추가
- 순서 있는 글머리 기호를 나타내는 SB 태그 추가.
가.
,나.
,다.
등의 글머리 기호가 별도의 문장으로 분리되지 않도록 개선 - 사용자지정 태그로 사용할 수 있는 USER0 ~ USER4 태그 추가
- 정규표현식 기반으로 형태소를 사전에 추가하는
Kiwi.add_re_word
메소드 추가 Token.span
추가Token.user_value
추가 및 user_value를 설정할 수 있도록Kiwi.add_user_word
계열의 메소드에user_value
인자 추가- deprecated 되었던 메소드들 제거
Kiwi.add_pre_analyzed_word
에서 시작위치/끝위치를 지정하지 않았지만 그 값이 자명한 경우, 자동으로 채워넣는 기능 추가Kiwi.split_into_sents
에stopwords
인자 추가
기여자
Full Changelog: v0.15.2...v0.16.0
0.15.2
- Kiwi 0.15.2의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.15.2 )이 반영되었습니다.
- 매우 긴 텍스트를 분석할 때 시작 지점이 잘못 나오는 버그 수정
- U+10000 이상의 문자가 여러 개 포함된 텍스트를 SwTokenizer로 encode할때 offset이 누락되는 버그 수정
Kiwi.join
에서 형태소 결합 시 띄어쓰기 유무를 설정할 수 있는 기능 추가Kiwi.tokenize
로 형태소 분석 후 다시Kiwi.join
을 수행하는 경우 원본 텍스트의 띄어쓰기를 최대한 반영하여 결합하도록 개선
0.15.1
- Kiwi 0.15.1의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.15.1 )이 반영되었습니다.
- Subword Tokenizer를 제공하는 모듈인
kiwipiepiy.sw_tokenizer
이 추가되었습니다. - huggingface의 tokenizer와 호환가능한 Subword Tokenizer를 제공하는 모듈인
kiwipiepy.transformers_addon
이 추가되었습니다.
0.15.0
- Kiwi 0.15.0의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.15.0 )이 반영되었습니다.
- 둘 이상의 형태소로 더 잘게 분리될 수 있는 형태소를 추가 분리하는 옵션인
splitComplex
도입 - 부사파생접사를 위한
XSM
태그 추가 및 이에 해당하는 형태소-이
,-히
,-로
,-스레
추가 - 조사/어미에 덧붙는 받침을 위한
Z_CODA
태그 추가 및 조사/어미에서 자동으로 Z_CODA를 분절해내는 기능 추가 - 형태 분석 및 언어 모델 탐색 속도 최적화
- 옛한글 문자를 특수 기호로 분리하지 않고 일반 한글과 동일하게 처리하도록 개선
- 문장 분리 성능 개선
2010. 01. 01.
와 같이 공백이 포함된 serial 패턴 처리 보강Dr., Mr.
와 같이 약자 표현의.
이 마침표로 처리되지 않도록 보강- '-음'으로 문장이 끝나는 경우를 판별하기 위해
음/EF
형태소 추가 및 모델 보강
- 한 문장 내에서 사전에 미등재된 형태가 256개 이상 등장할 때 형태소 분석 결과가 잘못 나오는 문제 해결
- 특정 경우에 문장 분리가 전혀 되지 않던 버그 수정(#111)
- 이모지 등 U+10000 이상의 유니코드 문자를 모두 한자로 분류하던 버그 수정
- 둘 이상의 형태소로 더 잘게 분리될 수 있는 형태소를 추가 분리하는 옵션인
Kiwi.glue
에insert_new_lines
인자가 추가되었습니다.- 형태소의 사전 표제형을 보여주는
Token.lemma
프로퍼티가 추가되었습니다.
0.14.1
- Kiwi 0.14.1의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.14.1 )이 반영되었습니다.
- 특정 텍스트에 대해 형태소 분할 없이 전체 결과를 그대로 반환하는 오류 해결
- EF 뒤에 보조용언이 따라오는 경우 문장을 분리하지 않도록 개선
- 이제 Python 3.11을 지원합니다.
- 추가로 이제 macOS용 binary wheel을 arm64, x86_64로 나누어서 제공합니다.
0.14.0
- Kiwi 0.14.0의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.14.0 )이 반영되었습니다.
- 동사 '이르다'의 모호성 해소 기능 추가
- W_SERIAL 태그 추가. SS 태그를 SSO, SSC 태그로 세분화
- 인용문 등으로 둘러싸인 안긴 문장이 포함된 문장에 대해 문장 분리 성능 개선 (#84)
랬/댔/잖
의 분석 정확도 개선- 내장 오타 사전 추가. 사용을 원치 않는 경우
Kiwi(load_typo_dict=False)
로 끌 수 있습니다.
- 각종 버그가 수정되었습니다.
0.13.1
0.13.0
- Kiwi 0.13.0의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.13.0 )이 반영되었습니다.
- 형태소 분석 시 간단한 오타 교정을 수행하는 기능 추가
- SkipBigram 언어 모델 추가.
Kiwi(model_type='sbg')
로 사용 가능 - 분석 결과에서 개별 형태소의 오타 교정 비용을 반환하는
Token.typo_cost
필드, 오타 교정 전 형태를 반환하는Token.raw_form
필드 추가
- 각종 버그가 수정되었습니다.
- 배포 판에서
stopwords.txt
파일이 누락되었던 버그 수정
- 배포 판에서