Skip to content

Commit

Permalink
updated documentations
Browse files Browse the repository at this point in the history
  • Loading branch information
bab2min committed Jun 14, 2023
1 parent de3e9bb commit 84582c4
Show file tree
Hide file tree
Showing 2 changed files with 14 additions and 0 deletions.
7 changes: 7 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -763,6 +763,13 @@ Token(form='결과', tag='NNG', start=4, len=2)
>> kiwi.join([('', 'VV-I'), ('어요', 'EF')])
'물어요'

# 0.15.2버전부터는 Tuple의 세번째 요소로 띄어쓰기 유무를 지정할 수 있습니다.
# True일 경우 강제로 띄어쓰기, False일 경우 강제로 붙여쓰기를 수행합니다.
>> kiwi.join([('', 'NNG'), ('', 'JKO', True), ('', 'VV'), ('어요', 'EF')])
'길 을 물어요'
>> kiwi.join([('', 'NNG'), ('', 'JKO'), ('', 'VV', False), ('어요', 'EF')])
'길을물어요'

# 과거형 선어말어미를 제거하는 예시
>> remove_past = lambda s: kiwi.join(t for t in kiwi.tokenize(s) if t.tagged_form != '었/EP')
>> remove_past('먹었다')
Expand Down
7 changes: 7 additions & 0 deletions kiwipiepy/documentation.md
Original file line number Diff line number Diff line change
Expand Up @@ -560,6 +560,13 @@ Python 모듈 관련 오류는 https://github.com/bab2min/kiwipiepy/issues, 형

역사
----
* 0.15.2 (2023-06-14)
* Kiwi 0.15.2의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.15.2 )이 반영되었습니다.
* 매우 긴 텍스트를 분석할 때 시작 지점이 잘못 나오는 버그 수정
* U+10000 이상의 문자가 여러 개 포함된 텍스트를 SwTokenizer로 encode할때 offset이 누락되는 버그 수정
* `Kiwi.join`에서 형태소 결합 시 띄어쓰기 유무를 설정할 수 있는 기능 추가
* `Kiwi.tokenize`로 형태소 분석 후 다시 `Kiwi.join`을 수행하는 경우 원본 텍스트의 띄어쓰기를 최대한 반영하여 결합하도록 개선

* 0.15.1 (2023-05-07)
* Kiwi 0.15.1의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.15.1 )이 반영되었습니다.
* Subword Tokenizer를 제공하는 모듈인 `kiwipiepiy.sw_tokenizer`이 추가되었습니다.
Expand Down

0 comments on commit 84582c4

Please sign in to comment.