-
Notifications
You must be signed in to change notification settings - Fork 8
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Complete the current annotator dictionary creation workflow to add a new normalized dictionnary #1
Comments
The attached zip file contains a jar that allows to generate a new lemmatized dictionary. The jar takes two parameters: the first is the original dictionary file path and the second is the lemmatized dictionnary path. The jar calls TreeTagger which must be present on the same folder. We should call this jar every time the original dictionary is changed. @vemonet, i think we should call it inside the file "ncbo_ontology_annotate_generate_dictionary" ? |
C'est à ce niveau que les concepts d'une submission sont ajoutés à l'Annotator : Donc je pense que le mieux c'est de le faire dans cette fonction : |
@vemonet Pourrez tu nous indiquer aussi ou se trouve les elements pour demarrer le serveur MGREP aussi ? (car il va falloir qu'on genere un 2 eme dico et qu'on demarre un 2eme MGREP avec ce dicco. |
J'ai modifié la fonction generate_dictionary_file pour générer un deuxième dictionnaire lemmatisé. Je donne en PJ pour exemple une partie du dictionnaire original et le dictionnaire lemmatisé résultant. dictionary-lem.txt Il faut mentionner que TreeTagger élimine les chiffres et quelque caractères spéciaux. |
I tested the lemmatized dictionary generation on my local bioportal installation and it worked correctly. For that, I used the script "ncbo_ontology_annotate_generate_dictionary" in the ncbo_cron/bin folder. |
Merci des exemples. Pour les CUI qui disparaissent du dico, ok. C'est pas grave. De toute façon a terme on est censé ne plus en avoir si les ontologies sont propres... cf entre autre Pour une ligne comme celle-la: INCISION ET DRAINAGE D'HéMATOME DU BASSIN Je sais que cela va plus loin que la lemmatisation la, mais est ce que a envoyer ca a un outil comme TreeTager, on pourrait pas essayer de faire ca aussi. |
Je suis d'accord pour les lignes contenant seulement "C", je vais les enlever. Pour les entrées multiples avec le meme termid, Mgrep semble les gérer sans problèmes. Par contre, je pense que pour les gérer on devra utiliser des heuristiques (par exemple: après un ET, considérer une suite de caractères avec au moins trois consonnes comme une abréviation...) |
Le dictionnaire lemmatisé ne contient plus de lignes avec un concept qui a un seul caractère (le cas des CUI). |
Well, on dirait que cette première étape est terminée alors ;) Bravo. |
Ontoportal align: Ecoportal ontoportal reset
Feature: Align to AgroPortal 2.9.1 release
This is a sub task of ontoportal-lirmm/ncbo_annotator#4
This consist of modifying the process to generate the mgrep dictionary file in order to generate another file that would be normalized using TreeTager.
Assign to @vemonet and @amineabdaoui
The text was updated successfully, but these errors were encountered: