updated documentations

bab2min · Jun 14, 2023 · 84582c4 · 84582c4
1 parent de3e9bb
commit 84582c4
Show file tree

Hide file tree

Showing 2 changed files with 14 additions and 0 deletions.
diff --git a/README.md b/README.md
@@ -763,6 +763,13 @@ Token(form='결과', tag='NNG', start=4, len=2)
 >> kiwi.join([('묻', 'VV-I'), ('어요', 'EF')])
 '물어요'
 
+# 0.15.2버전부터는 Tuple의 세번째 요소로 띄어쓰기 유무를 지정할 수 있습니다. 
+# True일 경우 강제로 띄어쓰기, False일 경우 강제로 붙여쓰기를 수행합니다.
+>> kiwi.join([('길', 'NNG'), ('을', 'JKO', True), ('묻', 'VV'), ('어요', 'EF')])
+'길 을 물어요'
+>> kiwi.join([('길', 'NNG'), ('을', 'JKO'), ('묻', 'VV', False), ('어요', 'EF')])
+'길을물어요'
+
 # 과거형 선어말어미를 제거하는 예시
 >> remove_past = lambda s: kiwi.join(t for t in kiwi.tokenize(s) if t.tagged_form != '었/EP')
 >> remove_past('먹었다')

diff --git a/kiwipiepy/documentation.md b/kiwipiepy/documentation.md
@@ -560,6 +560,13 @@ Python 모듈 관련 오류는  https://github.com/bab2min/kiwipiepy/issues, 형
 
 역사
 ----
+* 0.15.2 (2023-06-14)
+    * Kiwi 0.15.2의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.15.2 )이 반영되었습니다.
+        * 매우 긴 텍스트를 분석할 때 시작 지점이 잘못 나오는 버그 수정
+        * U+10000 이상의 문자가 여러 개 포함된 텍스트를 SwTokenizer로 encode할때 offset이 누락되는 버그 수정
+    * `Kiwi.join`에서 형태소 결합 시 띄어쓰기 유무를 설정할 수 있는 기능 추가
+    * `Kiwi.tokenize`로 형태소 분석 후 다시 `Kiwi.join`을 수행하는 경우 원본 텍스트의 띄어쓰기를 최대한 반영하여 결합하도록 개선
+
 * 0.15.1 (2023-05-07)
     * Kiwi 0.15.1의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.15.1 )이 반영되었습니다.
     * Subword Tokenizer를 제공하는 모듈인 `kiwipiepiy.sw_tokenizer`이 추가되었습니다.