Releases: bab2min/Kiwi
Releases · bab2min/Kiwi
0.20.2
버그 수정
SN이나 W 태그가 나타날 위치에서 종종 바로 앞의 문자열이 중복되어 엉뚱한 태그가 발생하는 버그 수정
0.20.1
버그 수정
#200 버그 수정
splitSaisiot, mergeSaisiot 사용시의 정확도 개선
saisiot 기능 추가 이후 GCC에서 Pretokenized Span을 사용할때 발생하는 segmentation fault 해결
누락되었던 C API 상수 보완
0.20.0
신기능
사이시옷을 위한 품사 태그인 Z_SIOT 추가
사이시옷이 포함된 합성명사를 분할하거나, 사이시옷 앞뒤의 명사를 결합하여 출력하는 옵션 추가
0.19.1
버그 수정
앞쪽의 특수 문자가 형태소와 잘못 결합하여 분석되는 버그 수정
오타 교정을 켠 상태에서 PretokenizedSpan 혹은 blocklist를 사용할때 오류가 발생하는 버그 수정
XSM 태그가 종종 접두사 위치에 등장하는 버그 수정
서툰
, 내민
등의 형태가 명사로 잘못 분석되는 버그 수정
v0.19.0
신기능
장음화 오타 정정 기능 추가(ex: 지인짜 -> 진짜)
분석 속도 평균 30% 향상
버그 수정
순서 있는 글머리가 여럿 섞인 문장을 분석할 때 종결어미 -다.
가 종종 SB 태그로 오분석되는 버그 수정
기타
제공되는 모델 파일의 경로가 ModelGenerator/
에서 models/base/
로 변경되었습니다.
이 버전부터 Centos5, 6에 대한 지원이 제거되었습니다. (물론 소스코드를 통한 빌드는 여전히 가능합니다.)
v0.18.1
버그 수정
PreTokenizedSpan과 SPLIT_COMPLEX를 동시에 사용시 종종 빈 결과값이 나오던 버그(#176 ) 수정
공백 없이 길게 이어진 텍스트를 분석할때 종종 std::length_error가 발생하던 오류(bab2min/kiwipiepy#172 ) 수정
문장 분리 시 여는 따옴표가 종종 잘못된 문장에 붙던 버그(#181 ) 수정
기능 추가
출력을 호환자모로 통일하는 옵션인 kiwi::Match::compatibleJamo
추가
0.18.0
신기능
Pretokenized Span으로 동사를 지정했을 때 문맥에 따라 규칙성 여부(-R / -I)를 자동으로 탐지하도록 기능 개선
이모지를 위한 신규 태그인 W_EMOJI
추가
외국어 태그 개선: 유니코드 영역을 기반으로 각 문자가 어떤 언어의 문자 집합에 해당하는지를 보여주는 TokenInfo::script
멤버 변수 추가
emscripten를 통한 JavaScript/wasm binding 추가 (@RicBent , #171 )
버그 수정
Pretokenized Span이 잘못 지정되었을 경우 크래시가 발생하는 문제 수정
기여자
소중한 기여에 감사드립니다.
0.17.0
신기능
AutoJoiner
에서 결합 후 형태소들의 위치 정보를 반환하도록 개선
공백이 포함된 형태소를 등록할 수 있도록 사전 기능 확장
공백 문자 정규화 기능 추가(U+00A0을 비롯한 다양한 유니코드 공백 문자가 공백 문자로 제대로 처리됨)
약 25만 종의 어휘가 포함된 기본 다어절 고유 명사 사전(multi.dict
)이 추가됨. 다어절 사전 로딩 유무를 선택할 수 있도록 BuildOption::loadMultiDict
열거형 추가
IOException
, FormatException
가 추가되어 Kiwi
가 좀 더 명확한 예외를 선택하여 던지도록 수정
버그 수정
공백 없이 긴 텍스트를 입력했을때 속도가 느려지거나 크래시가 발생하는 버그 수정
일련번호(W_SERIAL
) 추출 시 종종 마지막에 공백 문자가 포함되던 버그 수정
0.16.1
-다.
로 끝나는 문장의 어미들이 SB태그로 과도하게 잘못 분석되던 오류 수정
KiwiJava에서 topN 인자가 제대로 반영되지 않던 버그 수정
You can’t perform that action at this time.