-
data/bailly-grc-defs.dat contains an initial pass of the Alpheios Bailly data file, for all of the lemmas found in the Bailly files with the French definitions, and for any other lemmas from LSJ that were not found, the English definitions from LSJ.
-
test/index.html can be used to test the defs file with Alpheios . You should see a page with a small excerpt from Sophocles Ajax, and Alpheios embedded with a build of the code that has the Bailly+LSJ short defs file. (This should automatically be selected as the default short definition lexicon, if it's not for some reason you can select that by going to the resources tab of the Alpheios options dialog). Not many of the words from that passage were among the ones that have French definitions, but you can see how they look if you double-click on "σε" . You can also enter any greek word in the lookup box. I threw a quick credits statement together, but this will need to be polished and expanded upon.
-
data/Eulexis_Bailly_align.csv contient le résultat de l'alignement des lemmes d'Eulexis (i.e. de Diogenes) avec les divers fichiers extraits du Bailly. Le contenu des colonnes est indiqué sur la première ligne :
- lemme (d'Eulexis) en unicode
- le même en betacode
- le mot s'il est trouvé dans le fichier
Bailly_sens.csv
- le mot s'il est trouvé dans le fichier
Bailly_renv.csv
- le mot s'il est trouvé dans le fichier
Bailly_subst.csv
- le mot s'il est trouvé dans le fichier
Bailly_es_sens.csv
- le mot s'il est trouvé dans le fichier
Bailly_es_renv.csv
- le nombre de mots trouvés dans les fichiers Si le lemme n'a été trouvé dans aucun des fichiers, je fais une deuxième tentative en supprimant les signes diacritiques et l'éventuelle majuscule. Pour distinguer les lignes issues de cette deuxième tentative, je les fais commencer par un point d'interrogation et le nombre de mots trouvés est augmenté de 100. Une majorité des lemmes a maintenant un candidat unique : 67 505 = 58% (voir les détails en date du 12 octobre dans NOTES.md).
-
data/index_LSJ_Bailly.csv est l'index commun du LSJ (version de Chaeréphon) et du Bailly. La première colonne est la base commune : l'entrée sans diacritique, ni majuscule, ni indice d'homonymie. La deuxième colonne donne l'entrée du LSJ et la troisième l'entrée du Bailly. En cas d'entrées multiples, j'utilise autant de lignes que nécessaire.
-
data/betunicode_gr.csv est le tableau de conversion betacode-Unicode que j'utilise dans Eulexis. Les lignes contenant un point d'exclamation "!" sont des commentaires et doivent être ignorées. Il s'agit de remplacer séquentiellement les éléments de la première colonne par ceux de la troisième, ou réciproquement. L'ordre a son importance et le β initial (si on utilise le ϐ) ou le ς final doivent être traités à part.
-
data/Eulexis_Bailly_sens.csv is the result of the alignment of Bailly with the lemmata of Eulexis. It gives also the translations, when I found them. A line has 10 fields, named on the first line:
- numero Just a number, BUT has before it : a "*" if multiple candidates, a "!" if none or a "?" if the candidate(s) has/have an approximate spelling (uppercase, accent etc.)
- lemme the lemma as it is in Eulexis (vowels with oxia, not with tonos)
- betacode the lemma in betacode
- trad_En the English translation found in Eulexis
- lem_tr the found lemma (lemme trouvé) which can be different from the required lemma if the line begins with ?
- sens The French translation extracted from Bailly
- longueur the size of the previous column
- indications morphological data
- occurrences number of occurrences as given in Helma's file
- nombre number of solutions if < 100, when > 99, it means that I have looked for approximate solutions because I had found no exact ones. I did not look for approximate solutions when I had exact ones. In some cases, it is the good lemma with different graphical representations. But sometimes it is just wrong.
Well, the "lemme trouvé" hides more information, telling where the translation comes from.
- single lemma = main entry : Bailly_sens.csv
- two lemmata with a ">" in between : Bailly_renv.csv
- two lemmata with a "<" in between : Bailly_es_sens.csv
- three lemmata with "<" and ">" : Bailly_es_renv.csv
- more complex with "(in lemma)" : Bailly_subst.csv
Examples and explanations :
- αἱ Ἅρπυιαι (in Ἅρπυια) : in the entry Ἅρπυια, I have found the plural, αἱ Ἅρπυιαι, with a special meaning
- Ἅφαιστος > Ἥφαιστος : Bailly has an entry Ἅφαιστος, with no translation, just a reference to the "main entry" Ἥφαιστος, which gives the details.
- Ἁλίη < Ἁλία : in the entry Ἁλία, I have found a second entry Ἁλίη (entrée secondaire, \es in the TeX file)
- ἥρῳ < ἥρω > ἥρως : combination of the previous two, the entry ἥρω refers to ἥρως and contains the form ἥρῳ
In the case of >, the translation I give is the one of the target-lemma. In the case of multiple references, my program was not able to follow the "jeu de piste", and you'll find some "???? Renvoi sans issue ????" (stupid play on "voie sans issue"=dead-end). For instance, the lines 1607 and 1609 are
Ἀμπρακιήτης > Ἀμπρακιώτης
Ἀμπρακιώτης > Ἀμπρακιεύς
The second one succeeded as I had a translation for Ἀμπρακιεύς in Bailly_sens.csv, but not the first one.
The morphological data has to be handled with care in the cases of "subst" or of "es". In the example of "Ἁλίη < Ἁλία", it gives the genitive of the second, while Bailly gave two different genitives :
Ἁλία, ας, ion. Ἁλίη, ης (ἡ) [ᾰλ] Halia ou Haliè, Néréide, IL. 18, 40 ; HÉS. Th. 245, etc.
Clearly, the file trad_gr_en_fr_de_travail_3.csv
contains less information. Esp. when an adjective and a noun share the same form. In the work of LASLA with Latin texts, they have systematically distinguished these cases with two different lemmata, for instance amicus1 and amicus2... I don't know yet what will be updated with the corrected data files. For the moment, I was focusing on the lexicon used by Eulexis, which is mainly the file trad_gr_en_fr_de_travail_3.csv
. It is of primary interest for me and it answers the original request to give French short definitions.
Data contained in data/raw/
are intermediate data produced to import Bailly's short definitions into Eulexis and Alpheios.
(data produced by @balmas)
Files of interest:
-
raw/alpheios/matched.csv: this contains the lemmas for which I could find an exact match (or exact match excluding initial capital) in the Alpheios LSJ index
-
raw/alpheios/nolsj.csv: this contains the lemmas from the Bailly files that I could not match in the Alpheios LSJ index.
-
raw/alpheios/nobailly.csv: this contains the lemmas from the Alpheios LSJ index that I could not match in the Bailly files.
-
raw/alpheios/morphdiff.csv: this contains a subset of the lemmas in nolsj.csv (i.e the lemmas found in Bailly and not in the LSJ index) that morpheus parsed as a different lemma (and the corresponding LSJ short def for that lemma) (TargetWord is the lemma from Bailly, LemmaWord is the lemma from LSJ)
-
raw/alpheios/propernouns.csv: this contains a subset of the lemmas in nolsj.csv that morpheus parsed as a different lemma that are likely to be proper nouns. In some cases, the initial sense of the propernoun WAS found in the LSJ index but additional senses were not (if a lemma in here has sense indicators and the plain lemma without the sense isn't listed, then a single sense was matched in the LSJ index)
(data produced by @PhVerkerk)
@PhVerkerk a déposé une série de fichiers qui correspondent au traitement des informations extraites du Bailly (Nouvelle édition revue et corrigée, dite
BAILLY 2020
Version Hugo Chávez, établie sous la direction de
GÉRARD GRÉCO
ingénieur,
avec le concours spécial de
André CHARBONNET (Chaeréphon), Mark DE WILDE
et
Bernard MARÉCHAL, aimablement fournie à @PhVerkerk au format TeX par Gérard Gréco).
Les fichiers txt contiennent des données brutes, alors que les csv sont le résultat d'un traitement (en réalité, les fichiers txt sont aussi issus du traitement de mon fichier intermédiaire). Les fichiers zippés, Bailly_tout.txt.zip
et Bailly_complex.txt.zip
(qui étaient un peu trop gros et assez inutiles), correspondent respectivement à mon fichier intermédiaire, dans lequel j'ai explicité les substantifs abrégés (sous la forme {ὁ ἀγ.}) et remplacé les renvois au mot suivant ou précédent par ledit mot et aux cas complexes que j'ai traités dans un second temps. Le fichier Bailly_vide.txt
contient les entrées simples pour lesquelles je n'ai pas su isoler de sens (il y en a 2 975). Elles semblent correspondre à des formes verbales qui se contentent de renvoyer au verbe (en précisant les temps et mode). Le fichier Bailly_vide_c.txt
contient les entrées complexes pour lesquelles je n'ai pas su isoler de sens (il y en a 18). Il s'agit exclusivement d'entrées du Bailly qui contiennent la même forme à deux genres différents, que j'ai dû considérer comme deux mots distincts.
Βουκολίων, 160239
160240 @ 1 {ὁ Βουκολίων} Boukoliôn (h.)
160244 @ 2 {ἡ Βουκολίων} Boukoliôn, (v.)
gens : ωνος
OK
<< 160240 @ 1
<< 160244 @ 2
Les dernières lignes (qui commencent par "<<") sont issues de mon traitement (voir le fichier NOTES.md).
trad_gr_en_fr_de_travail_6.csv
est une nouvelle version du lexique d'Eulexis. J'y ai mis les traductions françaises issues du Bailly lorsque la traduction était absente et qu'il n'y avait qu'une seule solution, exacte qui plus est. Entretemps, j'ai compris comment récupérer quelques traductions dans le LSJ qui étaient restées vides. Pour cela, j'ai suivi les renvois qui étaient, pour la plupart, de la forme =. J'ai parcouru rapidement les traductions trouvées à la recherche de grosses bêtises. De toute façon, toutes ces traductions vont passer à la correction...
trad_gr_en_fr_de_travail_3.csv
est le fichier de travail qui correspond au lexique d'Eulexis. Le format des données CSV (Tab comme séparateur) est composé de 5 champs :
- le lemme d'Eulexis en caractères grecs
- le même en betacode
- la traduction anglaise (LSJ + améliorations d'Helma Dik, Logeion + mes améliorations)
- la traduction (automatique) en français de la traduction anglaise (pas sûr que ce soit la traduction de la toute dernière version anglaise)
- la traduction (automatique) en allemand de la traduction anglaise Le vrai fichier avec lequel Eulexis fonctionne ne contient pas la première colonne (qui est redondante avec la 2e) : toutes les recherches se font sur le betacode, le lemme en caractères grecs n'est là que pour permettre aux hellénistes qui ne sont pas familiers avec le betacode de lire plus facilement le mot (et pour faire joli).
Logeion_freq_sup5.csv
est le fichier de Logeion (merci, Helma !) avec les lemmes (de Logeion) dont la fréquence (le nombre d'occurrences) est supérieure ou égale à 5. Comme le corpus compte plus de 5 millions de mots, cette fréquence de 5 signifie que l'on peut lire 1 million de mots sans rencontrer ces lemmes-là. Ça n'est évidemment pas vrai, car il peut y avoir un texte de mille mots qui emploiera un de ces lemmes 5 fois. Cette digression statistico-philosophique mise à part, ces 21 802 lemmes couvrent presque 99% du corpus (98,95% précisément). À côté de ce fichier, j'ai mis header_freq_sup5.txt
qui indique en particulier le site d'où j'ai tiré ces données extrêmement précieuses. Les fichiers obtenus sont simplement des copier-coller des pages offertes par Helma (Logeion).
J'ai mis aussi dans le répertoire "test" deux fichiers test0.csv
et test0.md
(ce 2e est la description du premier). test0.csv
préfigure les fichiers que les correcteurs devront télécharger et éditer avec un outil ad hoc que j'aurai développé dans Eulexis. Mais il y a encore du chemin à parcourir...
Le format des données CSV (Tab comme séparateur) est composé de 5 champs :
- Le lemme
- L'entrée secondaire (éventuellement plusieurs variantes)
- Le sens trouvé (éventuellement vide)
- Le renvoi (éventuellement vide)
- La longueur du sens trouvé (nombre de caractères)
Bailly_es_sens.csv
: le sens est non-vide et le renvoi est videBailly_es_renv.csv
: le sens est vide et le renvoi est non-videBailly_es_probl.csv
: le sens est non-vide et le renvoi est non-vide (ce sont quelques cas qui posent problème puisqu'en principe sens et renvois sont exclusifs)
- Le fichier
Bailly_renv.csv
contient les entrées identifiées comme des renvois (il y en a 15 436 -il n'a quasiment pas changé car les renvois des cas complexes sont restés dans les sens puisque, la plupart du temps, ce n'est qu'une acception parmi d'autres qui donne un renvoi). Les lignes contiennent trois champs : l'entrée, le renvoi et les indications trouvées. Ces dernières sont : désinences (des), génitif (gens) et article (entre parenthèses), éventuellement aussi quelques mots clefs. Elles sont maintenant groupées dans un seul champ (éventuellement vide). Il faut noter que je n'ai pas vérifié si le renvoi existe, comme entrée ou sous-entrée. Mais il n'est pas nécessaire de vérifier que tous les renvois mènent quelque part, puisqu'on n'est pas sûr que tous les renvois soient utiles (une première estimation dit qu'environ un tiers des renvois sera utile). Quand on fera la recherche d'un lemme (du lexique) et qu'on trouvera un renvoi ne menant nulle part, il sera temps de s'en occuper...
ἀϐόατος > ἀϐόητος
ἀϐόηθος > ἀϐοήθητος des : ος, ον,
ἀϐουλί > ἀϐουλήτως adv.
ἁϐροσύνη > ἁϐρότης gens : ης (ἡ)
ἁϐροχαίτης > ἁϐροκόμης gens : ου, adj. m.
Ἀϐυδηνοκόμης > Ἀϐυδοκόμης
- Le fichier
Bailly_sens.csv
est le fichier principal. Comme son nom l'indique, il contient les entrées pour lesquelles je pense avoir réussi à isoler un sens (il y en a 89 374). Il contient les entrées (première colonne), le sens trouvé (2e colonne), le nombre de caractères que compte le sens (3e colonne, uniquement pour repérer facilement les sens qui sont trop longs et qui mériteraient d'être abrégés). Viennent ensuite les indications relevées (4e colonne).
ἀασμός exhalaison, souffle 19 gens : οῦ (ὁ)
1 ἄατος insatiable de 13 des : ος, ον
2 ἄατος pernicieux, funeste 19 des : ος, ον
2 ἀάω rassasier 9
ἀϐαθής sans profondeur 15 des : ής, ές
...
ᾠώδης qui ressemble à un œuf, ovale, ovoïde 37 des : ης, ες,
ἀάατος inviolable ; invincible ; très pénible 38 des : ος, ον
1 ἀάω troubler l'esprit, frapper de vertige ou de folie, avoir l'esprit égaré ; frapper d'une calamité, causer un malheur ; troubler l'esprit, égarer, tromper ; commettre une faute par aveuglement d'esprit 199 tr. intr.
Les sens tirés des cas complexes ont été ajoutés à la fin du fichier obtenu avec les cas simples. Dans l'exemple ci-dessus, on voit à la fin deux mots qui devraient s'intercaler parmi ceux du début. On voit aussi que 1 ἀάω est formé du groupement des divers sens (séparés par un ";") et qu'il est devenu trop long.
- Le fichier
Bailly_subst.csv
contient les substantifs et les adverbes qui sont perdus dans d'autres articles (souvent des adjectifs, parfois des verbes). Il y a 5 243 lignes (un même mot peut apparaître plusieurs fois ; je n'ai pas encore fait de tri -s'il faut en faire un). Elles donnent :- l'article (pour les substantifs) ou le mot-clef adv. (pour les adverbes)
- la forme (comme elle était parfois abrégée, je l'ai reconstituée à la main, en espérant ne pas avoir écrit trop d'horreurs -je n'ai aucune connaissance en Grec)
- le sens
- le lemme (l'entrée du Bailly) où j'ai trouvé ce mot
- les indications relatives à l'entrée du dico et pas au mot trouvé
οἱ ἐπίλεκτοι soldats d'élite ἐπίλεκτος des : ος, ον,
τὰ ἐπίλυτρα la rançon ἐπίλυτρος des : ος, ον,
ἡ ἐπιμελητική l'art de prendre soin de, diligence, vigilance ἐπιμελητικός des : ή, όν,
adv. ἐπίμεστα en surabondance ἐπίμεστος des : ος, ον, adv.
τὸ ἐπιμόριον nombre contenant un entier plus une fraction avec 1 pour numérateur ἐπιμόριος des : ος, ον,
adv. ἐπίμοχθον laborieusement ἐπίμοχθος des : ος, ον adv.
ὁ ἐπίνικος chant de victoire ἐπίνικος des : ος, ον
...
τὸ ἐπίκωπον navire muni de rames ἐπίκωπος des : ος, ον
τὸ ἐπιμελές soin ou sollicitude pour ἐπιμελής des : ής, ές
τὰ ἐπιμήνια sacrifices mensuels ; provisions ou dépenses mensuelles ; menstrues ἐπιμήνιος des : ος, ον subst. adj.
...
τὰ ἐπιφερόμενα les offrandes qu'on dépose sur un autel ou sur une tombe en l'honneur d'un mort ἐπιφέρω tr. intr.
τὰ ἐπιφερόμενα les événements futurs, l'avenir ἐπιφέρω tr. intr.
Ici aussi, les mots dérivés issus des cas complexes viennent en deuxième partie. Je donne aussi un exemple où le même mot apparaît avec deux sens différents τὰ ἐπιφερόμενα.
Ce dernier fichier Bailly_subst.csv
est probablement le plus discutable. D'une part, il contient peut-être des horreurs dues à mon ignorance de Grec. D'autre part, il pose une question plus fondamentale de savoir quand un adjectif substantivé devient un lemme à part entière. Y a-t-il un critère objectif pour trancher la question ? On peut souvent estimer qu'il y a un substantif sous-entendu (pour donner le genre) et que l'adjectif reste un qualificatif de ce nom inexistant (pas sûr que ça aide beaucoup un étudiant débutant).