Skip to content

Sobre Hunspell

Ricardo Palomares edited this page Apr 18, 2015 · 2 revisions

Hunspell es un corrector ortográfico y un analizador morfológico diseñado para idiomas con una morfología rica, compleja formación de palabras compuestas o con una codificación de caracteres distinta del ASCII de 8 bits, diseñado en un principio para el idioma húngaro.

Características principales:

  • El soporte extendido para peculiaridades lingüísticas, composición y morfología compleja.
  • Mejora tu sugerencia usando similitud, reglas y pronunciación basado en datos del diccionario.
  • El análisis morfológico.
  • Hunspell se basa en MySpell y trabaja también con los diccionarios MySpell.

Cómo funciona un diccionario Hunspell

Un diccionario Hunspell funciona mediante 2 archivos.

  • El archivo de diccionario (*.dic) que posee una lista de palabras, una por línea.
  • El archivo de afijos (*.aff) que puede contener una gran cantidad de opciones.

El archivo de diccionario, cuyo formato es *.dic, tiene una estructura similar a la siguiente:

54511
a
ababa/S
ababol/S
abacero/GS
abacería/S
abad/S
abada/S
abadejo/S
abadengo/GS
abadengo/S
abadernar/RED
abadesa/S

A excepción de los diccionarios personales, la primera línea del archivo de diccionario indica la cantidad total de palabras que se encuentran en el archivo.

Cada palabra puede contener opcionalmente una barra / seguido de una o más banderas (flags) que representan afijos o atributos especiales.

El archivo de afijos (*.aff) puede contener una gran cantidad de opciones. Dicho archivo puede tener una estructura similar a la siguiente:

SET ISO8859-1
TRY aeroinsctldumpbgfvhzóíjáqéñxyúükwAEROINSCTLDUMPBGFVHZÓÍJÁQÉÑXYÚÜKW
REP 95
REP ás az
REP az ás
REP cc x
REP és ez
REP ez és
...
PFX a Y 2
PFX a 0 a [^aeiou]
PFX a 0 an [aeiou]
PFX b Y 1
...
SFX A Y 9
SFX A r ción/S ar
SFX A er ición/S [^cn]er
SFX A er ición/S [^e]cer
SFX A ecer ición/S ecer

Cada línea del archivo de afijos posee una opción, definida por 3 letras en mayúscula, junto con sus parámetros. Las opciones más utilizadas son:

  • SET indica la codificación utilizada por los archivos de diccionario y de afijos.
  • TRY establece los caracteres de cambio para sugerencias.
  • REP establece una tabla de sustitución para correcciones de caracteres en modo de sugerencia
  • PFX y SFX define las clases de prefijos y sufijos nombrados con banderas (flags) de afijos.

[Explicar un poco la estructura de las opciones PFX y SFX]