-
Notifications
You must be signed in to change notification settings - Fork 5
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Identificação de Nomes de Pessoas Físicas #2
Comments
A primeira tentativa de algoritmo usando somente o NLTK não forneceu bons resultados, a biblioteca não funciona bem para a língua portuguesa e tem dificuldades em reconhecer nomes próprios brasileiros: |
Tentou-se usar uma lista de nomes pré-existentes em conjunto com o NLTK, a biblioteca NLTK separava os tokens e buscava a palavra nessa lista de nomes, foi possível obter melhores resultados, mas ainda ficou falha pois os nomes não eram separados por pessoa corretamente devido à limitação do algoritmo de saber separar um nome de outro. |
No último estudo realizado, foi encontrada uma nova alternativa, Named Entity Recognition (NER), que faz uso de aprendizado de máquina para processamento de linguagem natural através do framework Bidirectional Encoder Representations from Transformers (BERT), onde Transformers é um modelo de deep learning. Esse novo algoritmo forneceu resultados ótimos para a busca de nomes de pessoas físicas. |
Deve-se criar um algoritmo capaz de fazer o reconhecimento de nomes de pessoas físicas de modo a conseguir atrelar a entrada do Diário Oficial aos nomes de pessoas que aparecem nele.
The text was updated successfully, but these errors were encountered: