Supprimer facilement des doublons dans un corpus #2020
Replies: 2 comments 1 reply
-
Je plussoie et j'irai même plus loin, il serait bien que l'on puisse supprimer des documents en fonction du champ souhaité (pas seulement de l'uri). Un système où dans la datagrid on puisse filtrer les documents comme actuellement mais avec des cases à cocher, par exemple pour sélectionner tout ou partie des documents filtrés. En attendant pour dédoublonner des documents dont l'uri serait le doi, il serait possible de faire quelque chose de ce genre [assign]
path = uri
value = get('doi').replace(/^10\./, '')
...
[swing]
test = pick(['URI', 'uri']).pickBy(_.identity).isEmpty()
[swing/identify]
[dedupe]
ignore = true |
Beta Was this translation helpful? Give feedback.
-
Je vois ici plusieurs fonctions qui pourraient être séparées et donc développées progressivement.
|
Beta Was this translation helpful? Give feedback.
-
Lors d'un import dans Lodex d'un fichier dont l'URI est le DOI, il est possible d'avoir des doublons :
Dans ce 2e cas de figure, si les documents doublons ont un DOI identique, ces documents seront fusionnés. En revanche, les doublons seront conservés si ces documents ont un titre, résumé, noms d'auteurs, titre de revue, etc. identiques, mais :
Dans le cas de corpus multibases, les doublons peuvent représenter près de 10% du volume. Dédoublonner 380 documents pour ne conserver que 190 d'entre eux représente plusieurs heures de travail pour supprimer 1 par 1 chaque doublon dans Lodex à partir de l'export csv du corpus (doublons mis en évidence dans Excel).
Il serait appréciable :
Beta Was this translation helpful? Give feedback.
All reactions