Vocabulário contendo palavras em português (pt-br) feito para suprir a falta de materiais de qualidade com esse tipo de conteúdo.
Em uma busca pela internet encontrei vocabulários menores e com alguns problemas, o mais completo que encontrei foi o seguinte:
Possuindo no total 261798 palavras.
Para a construção do vocabulário foram usados como base os seguintes sites:
Arquivo | Conteúdo | Número de palavras |
---|---|---|
verbos.txt | Verbos no infinitivo | 5000 |
conjugacao.txt | Todas as conjugações dos verbos do arquivo verbos.txt |
461534 |
dicio.txt | Palavras encontradas no site Dicio | 159704 |
vocabulario.txt | Arquivo final | 691259 |
Arquivo contém 5000 verbos oriundos do site conjugacao.
O script usado para a sua geração se encontra em: Scripts/verbos.py
Arquivo contém todos os verbos existentes no arquivo verbos.txt
junto com suas devidas
conjugações.
O script usado para a sua geração se encontra em: Scripts/conjugacoes.py
Arquivo contendo todas as palavras contidas no site Dicio.
(PS: Foram retiradas expressões com mais de uma palavra e nomes)
O script usado para a sua geração se encontra em: Scripts/dicio.py
Arquivo contendo a junção de três arquivos, sendo estes:
- conjugacoes.txt
- dicio.txt
- Vocabulário encontrado no ime usp
Com o resultado desses Web scraping foi possivel adicionar 429461 palavras ao vocabulario base.