Replies: 2 comments
-
안녕하세요 @aajik ~ 대신에 Kiwi에서는 분석 결과를 다시 묶어주는 옵션이 있는데 이를 사용해보시면 어떨까 싶습니다. >>> from kiwipiepy import Kiwi, Match
>>> kiwi = Kiwi()
# Match.JOIN_NOUN_PREFIX는 명사의 접두사를 결합해줍니다.
# 유사하게 접미사를 결합해주는 Match.JOIN_NOUN_SUFFIX 옵션도 있습니다.
>>> kiwi.tokenize("미성년자 해외여행 신청 방법은 어떻게 되나요?", normalize_coda=True, match_options=Match.ALL | Match.JOIN_NOUN_PREFIX)
[Token(form='미성년자', tag='NNG', start=0, len=4),
Token(form='해외여행', tag='NNG', start=5, len=4),
Token(form='신청', tag='NNG', start=10, len=2),
Token(form='방법', tag='NNG', start=13, len=2),
Token(form='은', tag='JX', start=15, len=1),
Token(form='어떻', tag='VA-I', start=17, len=2),
Token(form='게', tag='EC', start=19, len=1),
Token(form='되', tag='VV', start=21, len=1),
Token(form='나요', tag='EF', start=22, len=2),
Token(form='?', tag='SF', start=24, len=1)]
>>> kiwi.tokenize("자녀도 같이 해야하는데, 자녀가 미성년자에요 어떻게 하나요?", normalize_coda=True, match_options=Match.ALL | Match.JOIN_NOUN_PREFIX)
[Token(form='자녀', tag='NNG', start=0, len=2),
Token(form='도', tag='JX', start=2, len=1),
Token(form='같이', tag='MAG', start=4, len=2),
Token(form='하', tag='VV', start=7, len=1),
Token(form='어야', tag='EC', start=7, len=2),
Token(form='하', tag='VX', start=9, len=1),
Token(form='는데', tag='EC', start=10, len=2),
Token(form=',', tag='SP', start=12, len=1),
Token(form='자녀', tag='NNG', start=14, len=2),
Token(form='가', tag='JKS', start=16, len=1),
Token(form='미성년자', tag='NNG', start=18, len=4),
Token(form='이', tag='VCP', start=22, len=0),
Token(form='에요', tag='EF', start=22, len=2),
Token(form='어떻', tag='VA-I', start=25, len=2),
Token(form='게', tag='EC', start=27, len=1),
Token(form='하', tag='VV', start=29, len=1),
Token(form='나요', tag='EF', start=30, len=2),
Token(form='?', tag='SF', start=32, len=1)] |
Beta Was this translation helpful? Give feedback.
0 replies
-
고맙습니다. 잘 해결 되었습니다. |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
안녕하세요.
Python 3.10.12, Kiwi.version:0.17.1을 사용하고 있습니다.
문장 예시)
위 두 문장을 아래와 같이 형태소 분석을하면
2)번 문장은 미성년자를 잘 분리해주고 있습니다.
tokens = kiwi.tokenize("미성년자 해외여행 신청 방법은 어떻게 되나요?", normalize_coda=True)
[Token(form='미성년자', tag='NNG', .....]
1)번 문장 미성년자를 분리하지 못하고 있습니다.
tokens = kiwi.tokenize("자녀도 같이 해야하는데, 자녀가 미성년자에요 어떻게 하나요?", normalize_coda=True)
[Token(form='자녀',.., Token(form='미', tag='XPN', start=18, len=1), Token(form='성년자', tag='NNG']
위 1)번을 "미성년자"로 분리가 안되는 문제가 있습니다. 해결 방법이 있을까요.
감사합니다.
cf :
text = "자녀도 같이 해야하는데, 자녀가 미성년자에요 어떻게 하나요" # N 미 성년자
text = "자녀도 같이 해야하는데, 자녀 미성년자에요 어떻게 하나요" # OK 미성년자
text = "자녀도 같이 해야하는데, 자녀은 미성년자에요 어떻게 하나요" # OK 미성년자
text = "자녀도 같이 해야하는데, 자녀는 미성년자에요 어떻게 하나요" # OK 미성년자
text = "자녀도 같이 해야하는데, 자녀이 미성년자에요 어떻게 하나요" # OK 미성년자
text = "자녀도 같이 해야하는데, 자녀도 미성년자에요 어떻게 하나요." # OK 미성년자
Beta Was this translation helpful? Give feedback.
All reactions