Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

SIFR Annotator Mgrep dictionnary enhancement #9

Open
jonquet opened this issue Feb 8, 2017 · 4 comments
Open

SIFR Annotator Mgrep dictionnary enhancement #9

jonquet opened this issue Feb 8, 2017 · 4 comments

Comments

@jonquet
Copy link

jonquet commented Feb 8, 2017

Cette tache consiste a traiter le dictionnaire Mgrep pour ajouter des termes qui ont plus de chance de matcher dans l'Annotator.

Pour une ligne comme celle-la:
5083756382759859076 ÉVéNEMENTS EMBOLIQUES ET THROMBOTIQUES (SMQ)
L'idéal, pour vraiment augmenter le recall de l'Annotator serait d'avoir comme résultats:
5083756382759859076 ÉVÉNEMENT EMBOLIQUE ET THROMBOTIQUE SMQ
5083756382759859076 ÉVÉNEMENT EMBOLIQUE
5083756382759859076 ÉVÉNEMENT THROMBOTIQUE
5083756382759859076 SMQ
Qu'en pensez vous ?
(j'ai oublié si MGREP accepte plusieurs entrée avec le même termid d'ailleurs ?)

Autre example:
INCISION ET DRAINAGE D'HéMATOME DU BASSIN
=>
INCISION ET DRAINAGE D HÉMATOME DU BASSIN
INCISION D HÉMATOME DU BASSIN
DRAINAGE D HÉMATOME DU BASSIN

@amineabdaoui
Copy link

amineabdaoui commented Feb 23, 2017

Oui mgrep accepte plusieurs entrées avec le même termid.

Je rajoute un autre exemple avec le OU:
-7613002381196257153 SYNDROME PARKINSONIEN OU MALADIE DE PARKINSON IDIOPATHIQUE
=>
-7613002381196257153 SYNDROME PARKINSONIEN
-7613002381196257153 MALADIE DE PARKINSON IDIOPATHIQUE

@amineabdaoui
Copy link

amineabdaoui commented Feb 28, 2017

Sur le document suivant, je met des heuristiques pour rajouter des concepts qui ont plus de chance de matcher: https://docs.google.com/document/d/1g83p3M64rtDZfsJcuHoq--mO_1ZSPBPyAG7CZQfyVRA/edit
Je ne met que les règles qui ne génèrent pas de bruit. Je me base sur un dictionnaire contenant seulement la CIM-10.

@amineabdaoui
Copy link

J'ai créé un jar qui implémente les heuristiques décrites dans le doc partagé (sauf la règle 4).
J'ai mis le code dans un nouveau repository github sur sifrproject:
https://github.com/sifrproject/Heuristics

@jonquet
Copy link
Author

jonquet commented May 15, 2018

UNe autre observée aujourd'hui sur l'AgroPortal Annotator:
passer de l'UK english a l'US english et vice versa.
E.g. annoter "pericarp color" avec CO_320 on manque car le terme est defini avec colour.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants