Supprimer facilement des doublons dans un corpus #2020

camilledesalabert · 2024-06-04T06:20:52Z

camilledesalabert
Jun 4, 2024
Collaborator

Lors d'un import dans Lodex d'un fichier dont l'URI est le DOI, il est possible d'avoir des doublons :

s'ils sont déjà présents dans le fichier unique importé
dans le cas d'imports de fichiers multiples issus de sources de données différentes (telles que WoS, Istex, etc.)

Dans ce 2e cas de figure, si les documents doublons ont un DOI identique, ces documents seront fusionnés. En revanche, les doublons seront conservés si ces documents ont un titre, résumé, noms d'auteurs, titre de revue, etc. identiques, mais :

qu'aucun des documents doublons ne possède un DOI
que l'un possède un DOI, et l'autre, non
que les deux DOI sont différents (erreur sur l'un des DOI)

Dans le cas de corpus multibases, les doublons peuvent représenter près de 10% du volume. Dédoublonner 380 documents pour ne conserver que 190 d'entre eux représente plusieurs heures de travail pour supprimer 1 par 1 chaque doublon dans Lodex à partir de l'export csv du corpus (doublons mis en évidence dans Excel).

Il serait appréciable :

de disposer d'un moyen de supprimer en 1 action une liste d'URI
d'avoir la possibilité de visualiser les métadonnées entre les doublons directement dans Lodex (cf. Rayyan ci-dessous)

AnaelKremer · 2024-06-04T07:16:27Z

AnaelKremer
Jun 4, 2024
Collaborator

Je plussoie et j'irai même plus loin, il serait bien que l'on puisse supprimer des documents en fonction du champ souhaité (pas seulement de l'uri). Un système où dans la datagrid on puisse filtrer les documents comme actuellement mais avec des cases à cocher, par exemple pour sélectionner tout ou partie des documents filtrés.

En attendant pour dédoublonner des documents dont l'uri serait le doi, il serait possible de faire quelque chose de ce genre

[assign]
path = uri
value = get('doi').replace(/^10\./, '')

...

[swing]
test = pick(['URI', 'uri']).pickBy(_.identity).isEmpty()
[swing/identify]

[dedupe]
ignore = true

1 reply

touv Jun 4, 2024
Maintainer

dans le même esprit, on pourrait ajouter un nouveau champ spécial, par exemple hash, qui serait forcement unique.
Les loaders pourrait le remplir avec des valeurs nécessaires pour éviter les doublons (titre, suffixe du DOI, titre + date, etc.).
Par défaut ce champ serait identique à l'URI.

C'est une solution à moindre coût.

touv · 2024-06-04T09:09:35Z

touv
Jun 4, 2024
Maintainer

Je vois ici plusieurs fonctions qui pourraient être séparées et donc développées progressivement.

Permettre la suppression de plusieurs lignes, dans la grille du dataset. Ce besoin remet en question un postulat posé lors de l'ajout de cette grille, mais il y a un besoin, je pense que la grille devrait pouvoir le permettre.
Dédoublonner automatiquement un dataset sur plusieurs champs. Ce problème est loin d’être simple. La bonne manière de faire est généralement d’éviter la création de doublon. La base de données permet cela, exemple il est impossible d’avoir strictement deux URI identiques. Peut-être qu’une idée serait de pouvoir définir d’autres champs uniques. à étudier…
La comparaison de notice est une fonction intéressante, que je la rapprocherais des fonctions générales liées aux annotations. Si lodex permet l'annotation de ressources, alors il faut permettre la comparaison de ressources, cette opération serait à faire côté front et non coté back.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Supprimer facilement des doublons dans un corpus #2020

{{title}}

Replies: 2 comments 1 reply

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

Select a reply

Supprimer facilement des doublons dans un corpus #2020

camilledesalabert Jun 4, 2024 Collaborator

Replies: 2 comments · 1 reply

AnaelKremer Jun 4, 2024 Collaborator

touv Jun 4, 2024 Maintainer

touv Jun 4, 2024 Maintainer

camilledesalabert
Jun 4, 2024
Collaborator

Replies: 2 comments 1 reply

AnaelKremer
Jun 4, 2024
Collaborator

touv Jun 4, 2024
Maintainer

touv
Jun 4, 2024
Maintainer