-
Notifications
You must be signed in to change notification settings - Fork 49
Home
Las expectativas iniciales para el proyecto son muy amplias pero en este momento se concentran en el desarrollo del mejor corrector ortográfico abierto posible para la lengua española.
Nuestro diccionario corrector recoge amplias colecciones de palabras, con la aspiración de cubrir los dialectos hispanos más importantes sin tener que renunciar a su unidad y generalidad.
En la actualidad nos apoyamos en la tecnología Hunspell, que a su vez es la usada por las herramientas software más populares como LibreOffice, Apache OpenOffice, Mozilla Firefox y Mozilla Thunderbird, entre otros.
Afortunadamente la mayoría de nuestros usuarios no necesita realizar ninguna acción particular. Nuestro corrector ortográfico está disponible en las distribuciones oficiales de LibreOffice, Apache OpenOffice, Mozilla Firefox y de todas las distribuciones Linux más populares.
Si deseas utilizar la última versión del diccionario corrector, deberás clonar este repositorio y seguir las instrucciones sobre cómo generar el diccionario corrector.
Lo más fácil es informando las palabras que faltan u otros errores que encuentres en el uso del corrector ortográfico. Por favor, ten en cuenta que el proyecto RLA-ES sólo consiste en la recopilación de lemas en español y no tiene nada que ver con el motor de comprobación ortográfica de Hunspell, que es el software encargado de analizar textos ortográficamente haciendo uso de diccionarios como el que preparamos en RLA-ES.
Para informarnos de las palabras que faltan, tienes que poseer una cuenta en GitHub y crear un registro (un issue en la terminología de la mayoría de los gestores de proyectos de código abierto) indicando el problema.
No todas las palabras pueden incluirse en el corrector ortográfico, como es lógico. En general, se añaden todas las palabras admitidas por el Diccionario de la Lengua Española de la RAE. Si la definición establece que su uso está limitado a algunas localizaciones, la palabra se añadirá solo en ellas.
¿Y si la palabra no está admitida por la RAE? Algunas palabras pueden no estar incluidas en el diccionario, pero ser derivaciones usuales de palabras que sí lo están, como por ejemplo, concéntricamente. En estos casos puede que las añadamos sin más, en la categoría noRAE.
En otras ocasiones pueden ser derivaciones bien formadas, pero con un uso muy limitado. En ese caso nos apoyamos en los resultados de otras fuentes normativas, como el CORPES XXI y el CDH. Aún no hemos determinado un valor umbral de frecuencia normalizada para decidir si se añade o no una palabra; recientemente, hemos descartado palabras con frecuencias normalizadas en el CORPES XXI de 0,20 apariciones por millón.
Por último, ocasionalmente consultamos también Fundéu, sobre todo para neologismos y nuevos usos que aún no se han reflejado en el diccionario de la RAE, pero que corresponden a reglas aplicadas en lemas que sí están presentes.
Si has creado el registro, puedes ir un paso más allá y decirnos la categoría de la palabra (nombre, adjetivo, verbo, etc.), si está admitida por la RAE y si es específica de alguna variante idiomática.
Puedes examinar la estructura del proyecto para entender cómo distribuimos las palabras por categorías, oficialidad y variante idiomática.
El siguiente paso de implicación en el proyecto es proporcionar la entrada concreta que debe añadirse o modificarse en el fichero correspondiente del proyecto, incluyendo los afijos aplicables. En los registros ya solucionados pueden encontrarse ejemplos de cómo indicar los cambios que se deberían realizar.
Un ejemplo es el registro 6. Para cada palabra, deberías seguir estos pasos:
- Identificar si la palabra se considera válida por el diccionario de la RAE o no.
- Mirar si el término puede ser derivado de otro. Por ejemplo, actualización es un nombre, pero puede derivarse del verbo actualizar.
- Buscar el término, una vez elegido éste, entre todos los archivos que componen el diccionario (ver más abajo Estructura de archivos), teniendo en cuenta los criterios de guardado indicados al principio. En Linux, desde el directorio palabras, se puede usar grep para ver si existe la palabra:
grep -E palabranueva *.txt
grep -E ^des *.txt ' Busca las palabras que comienzan por des
- Buscar los afijos que le corresponden en el archivo afijos.txt. Los prefijos comienzan por PFX y, por convención en RLA-ES, se usan letras minúsculas para identificarlos. Los sufijos comienzan por SFX y, por convención en RLA-ES, se usan letras mayúsculas para identificarlos. Por ejemplo, para añadir el plural de una palabra se usa el prefijo S, para permitir el cambio de género (niño, niña) se usa el prefijo G. La lista de prefijos y sufijos es muy amplia. En caso de duda, es preferible quedarse corto (que una palabra válida quede marcada como errónea) a pasarse (que una palabra errónea sea considerada válida).
El último paso al que puedes llegar tú por ti mismo es descargar una copia del repositorio git de manera anónima (acción denominada comúnmente clonar) y adjuntar parches en el registro que abras con las palabras que haya que añadir o modificar. Por supuesto, también aceptamos pull requests.
Si alcanzas este nivel de implicación, te pedimos que asignes un milestone al issue o pull_request. En general, el milestone que deberás asignar es el último que tenga el nombre Versión X.x, que corresponderá a la próxima versión planificada para su publicación.
Si tu implicación es frecuente y nos proporcionas parches válidos, podemos decidir darte acceso directo al repositorio de GitHub para que colabores y puedas no sólo aportar tus sugerencias, sino implementar las de otros colaboradores que no tengan acceso al repositorio.
Los diccionarios basados en Hunspell poseen una organización interna que deberías conocer si deseas colaborar directamente en el repositorio del proyecto. Se sugiere la lectura del artículo Sobre Hunspell.