About the data in this folder

Alpheios dictionary data

data/bailly-grc-defs.dat contains an initial pass of the Alpheios Bailly data file, for all of the lemmas found in the Bailly files with the French definitions, and for any other lemmas from LSJ that were not found, the English definitions from LSJ.
test/index.html can be used to test the defs file with Alpheios . You should see a page with a small excerpt from Sophocles Ajax, and Alpheios embedded with a build of the code that has the Bailly+LSJ short defs file. (This should automatically be selected as the default short definition lexicon, if it's not for some reason you can select that by going to the resources tab of the Alpheios options dialog). Not many of the words from that passage were among the ones that have French definitions, but you can see how they look if you double-click on "σε" . You can also enter any greek word in the lookup box. I threw a quick credits statement together, but this will need to be polished and expanded upon.

Eulexis alignment data

data/Eulexis_Bailly_align.csv contient le résultat de l'alignement des lemmes d'Eulexis (i.e. de Diogenes) avec les divers fichiers extraits du Bailly. Le contenu des colonnes est indiqué sur la première ligne :
1. lemme (d'Eulexis) en unicode
2. le même en betacode
3. le mot s'il est trouvé dans le fichier Bailly_sens.csv
4. le mot s'il est trouvé dans le fichier Bailly_renv.csv
5. le mot s'il est trouvé dans le fichier Bailly_subst.csv
6. le mot s'il est trouvé dans le fichier Bailly_es_sens.csv
7. le mot s'il est trouvé dans le fichier Bailly_es_renv.csv
8. le nombre de mots trouvés dans les fichiers Si le lemme n'a été trouvé dans aucun des fichiers, je fais une deuxième tentative en supprimant les signes diacritiques et l'éventuelle majuscule. Pour distinguer les lignes issues de cette deuxième tentative, je les fais commencer par un point d'interrogation et le nombre de mots trouvés est augmenté de 100. Une majorité des lemmes a maintenant un candidat unique : 67 505 = 58% (voir les détails en date du 12 octobre dans NOTES.md).
data/index_LSJ_Bailly.csv est l'index commun du LSJ (version de Chaeréphon) et du Bailly. La première colonne est la base commune : l'entrée sans diacritique, ni majuscule, ni indice d'homonymie. La deuxième colonne donne l'entrée du LSJ et la troisième l'entrée du Bailly. En cas d'entrées multiples, j'utilise autant de lignes que nécessaire.
data/betunicode_gr.csv est le tableau de conversion betacode-Unicode que j'utilise dans Eulexis. Les lignes contenant un point d'exclamation "!" sont des commentaires et doivent être ignorées. Il s'agit de remplacer séquentiellement les éléments de la première colonne par ceux de la troisième, ou réciproquement. L'ordre a son importance et le β initial (si on utilise le ϐ) ou le ς final doivent être traités à part.
data/Eulexis_Bailly_sens.csv is the result of the alignment of Bailly with the lemmata of Eulexis. It gives also the translations, when I found them. A line has 10 fields, named on the first line:

numero Just a number, BUT has before it : a "*" if multiple candidates, a "!" if none or a "?" if the candidate(s) has/have an approximate spelling (uppercase, accent etc.)
lemme the lemma as it is in Eulexis (vowels with oxia, not with tonos)
betacode the lemma in betacode
trad_En the English translation found in Eulexis
lem_tr the found lemma (lemme trouvé) which can be different from the required lemma if the line begins with ?
sens The French translation extracted from Bailly
longueur the size of the previous column
indications morphological data
occurrences number of occurrences as given in Helma's file
nombre number of solutions if < 100, when > 99, it means that I have looked for approximate solutions because I had found no exact ones. I did not look for approximate solutions when I had exact ones. In some cases, it is the good lemma with different graphical representations. But sometimes it is just wrong.

Well, the "lemme trouvé" hides more information, telling where the translation comes from.

single lemma = main entry : Bailly_sens.csv
two lemmata with a ">" in between : Bailly_renv.csv
two lemmata with a "<" in between : Bailly_es_sens.csv
three lemmata with "<" and ">" : Bailly_es_renv.csv
more complex with "(in lemma)" : Bailly_subst.csv

Examples and explanations :

αἱ Ἅρπυιαι (in Ἅρπυια) : in the entry Ἅρπυια, I have found the plural, αἱ Ἅρπυιαι, with a special meaning
Ἅφαιστος > Ἥφαιστος : Bailly has an entry Ἅφαιστος, with no translation, just a reference to the "main entry" Ἥφαιστος, which gives the details.
Ἁλίη < Ἁλία : in the entry Ἁλία, I have found a second entry Ἁλίη (entrée secondaire, \es in the TeX file)
ἥρῳ < ἥρω > ἥρως : combination of the previous two, the entry ἥρω refers to ἥρως and contains the form ἥρῳ

In the case of >, the translation I give is the one of the target-lemma. In the case of multiple references, my program was not able to follow the "jeu de piste", and you'll find some "???? Renvoi sans issue ????" (stupid play on "voie sans issue"=dead-end). For instance, the lines 1607 and 1609 are

Ἀμπρακιήτης > Ἀμπρακιώτης
Ἀμπρακιώτης > Ἀμπρακιεύς

The second one succeeded as I had a translation for Ἀμπρακιεύς in Bailly_sens.csv, but not the first one.

The morphological data has to be handled with care in the cases of "subst" or of "es". In the example of "Ἁλίη < Ἁλία", it gives the genitive of the second, while Bailly gave two different genitives : Ἁλία, ας, ion. Ἁλίη, ης (ἡ) [ᾰλ] Halia ou Haliè, Néréide, IL. 18, 40 ; HÉS. Th. 245, etc.

Clearly, the file trad_gr_en_fr_de_travail_3.csv contains less information. Esp. when an adjective and a noun share the same form. In the work of LASLA with Latin texts, they have systematically distinguished these cases with two different lemmata, for instance amicus1 and amicus2... I don't know yet what will be updated with the corrected data files. For the moment, I was focusing on the lexicon used by Eulexis, which is mainly the file trad_gr_en_fr_de_travail_3.csv. It is of primary interest for me and it answers the original request to give French short definitions.

Raw data

Data contained in data/raw/ are intermediate data produced to import Bailly's short definitions into Eulexis and Alpheios.

Alpheios (`raw/alpheios/*`)

(data produced by @balmas)

Files of interest:

raw/alpheios/matched.csv: this contains the lemmas for which I could find an exact match (or exact match excluding initial capital) in the Alpheios LSJ index
raw/alpheios/nolsj.csv: this contains the lemmas from the Bailly files that I could not match in the Alpheios LSJ index.
raw/alpheios/nobailly.csv: this contains the lemmas from the Alpheios LSJ index that I could not match in the Bailly files.
raw/alpheios/morphdiff.csv: this contains a subset of the lemmas in nolsj.csv (i.e the lemmas found in Bailly and not in the LSJ index) that morpheus parsed as a different lemma (and the corresponding LSJ short def for that lemma) (TargetWord is the lemma from Bailly, LemmaWord is the lemma from LSJ)
raw/alpheios/propernouns.csv: this contains a subset of the lemmas in nolsj.csv that morpheus parsed as a different lemma that are likely to be proper nouns. In some cases, the initial sense of the propernoun WAS found in the LSJ index but additional senses were not (if a lemma in here has sense indicators and the plain lemma without the sense isn't listed, then a single sense was matched in the LSJ index)

Eulexis (`raw/eulexis/*`)

(data produced by @PhVerkerk)

@PhVerkerk a déposé une série de fichiers qui correspondent au traitement des informations extraites du Bailly (Nouvelle édition revue et corrigée, dite BAILLY 2020 Version Hugo Chávez, établie sous la direction de GÉRARD GRÉCO ingénieur, avec le concours spécial de André CHARBONNET (Chaeréphon), Mark DE WILDE et Bernard MARÉCHAL, aimablement fournie à @PhVerkerk au format TeX par Gérard Gréco). Les fichiers txt contiennent des données brutes, alors que les csv sont le résultat d'un traitement (en réalité, les fichiers txt sont aussi issus du traitement de mon fichier intermédiaire). Les fichiers zippés, Bailly_tout.txt.zip et Bailly_complex.txt.zip (qui étaient un peu trop gros et assez inutiles), correspondent respectivement à mon fichier intermédiaire, dans lequel j'ai explicité les substantifs abrégés (sous la forme {ὁ ἀγ.}) et remplacé les renvois au mot suivant ou précédent par ledit mot et aux cas complexes que j'ai traités dans un second temps. Le fichier Bailly_vide.txt contient les entrées simples pour lesquelles je n'ai pas su isoler de sens (il y en a 2 975). Elles semblent correspondre à des formes verbales qui se contentent de renvoyer au verbe (en précisant les temps et mode). Le fichier Bailly_vide_c.txt contient les entrées complexes pour lesquelles je n'ai pas su isoler de sens (il y en a 18). Il s'agit exclusivement d'entrées du Bailly qui contiennent la même forme à deux genres différents, que j'ai dû considérer comme deux mots distincts.

Βουκολίων,	160239	
	160240	@		1	{ὁ Βουκολίων} Boukoliôn (h.)
	160244	@		2	{ἡ Βουκολίων} Boukoliôn, (v.)
gens : ωνος	
OK
<<	160240	@		1	
<<	160244	@		2

Les dernières lignes (qui commencent par "<<") sont issues de mon traitement (voir le fichier NOTES.md).

Fichiers divers

trad_gr_en_fr_de_travail_6.csv est une nouvelle version du lexique d'Eulexis. J'y ai mis les traductions françaises issues du Bailly lorsque la traduction était absente et qu'il n'y avait qu'une seule solution, exacte qui plus est. Entretemps, j'ai compris comment récupérer quelques traductions dans le LSJ qui étaient restées vides. Pour cela, j'ai suivi les renvois qui étaient, pour la plupart, de la forme =. J'ai parcouru rapidement les traductions trouvées à la recherche de grosses bêtises. De toute façon, toutes ces traductions vont passer à la correction...

trad_gr_en_fr_de_travail_3.csv est le fichier de travail qui correspond au lexique d'Eulexis. Le format des données CSV (Tab comme séparateur) est composé de 5 champs :

le lemme d'Eulexis en caractères grecs
le même en betacode
la traduction anglaise (LSJ + améliorations d'Helma Dik, Logeion + mes améliorations)
la traduction (automatique) en français de la traduction anglaise (pas sûr que ce soit la traduction de la toute dernière version anglaise)
la traduction (automatique) en allemand de la traduction anglaise Le vrai fichier avec lequel Eulexis fonctionne ne contient pas la première colonne (qui est redondante avec la 2e) : toutes les recherches se font sur le betacode, le lemme en caractères grecs n'est là que pour permettre aux hellénistes qui ne sont pas familiers avec le betacode de lire plus facilement le mot (et pour faire joli).

Logeion_freq_sup5.csv est le fichier de Logeion (merci, Helma !) avec les lemmes (de Logeion) dont la fréquence (le nombre d'occurrences) est supérieure ou égale à 5. Comme le corpus compte plus de 5 millions de mots, cette fréquence de 5 signifie que l'on peut lire 1 million de mots sans rencontrer ces lemmes-là. Ça n'est évidemment pas vrai, car il peut y avoir un texte de mille mots qui emploiera un de ces lemmes 5 fois. Cette digression statistico-philosophique mise à part, ces 21 802 lemmes couvrent presque 99% du corpus (98,95% précisément). À côté de ce fichier, j'ai mis header_freq_sup5.txt qui indique en particulier le site d'où j'ai tiré ces données extrêmement précieuses. Les fichiers obtenus sont simplement des copier-coller des pages offertes par Helma (Logeion).

J'ai mis aussi dans le répertoire "test" deux fichiers test0.csv et test0.md (ce 2e est la description du premier). test0.csv préfigure les fichiers que les correcteurs devront télécharger et éditer avec un outil ad hoc que j'aurai développé dans Eulexis. Mais il y a encore du chemin à parcourir...

Anciens fichiers avec les entrées secondaires :

Le format des données CSV (Tab comme séparateur) est composé de 5 champs :

Le lemme
L'entrée secondaire (éventuellement plusieurs variantes)
Le sens trouvé (éventuellement vide)
Le renvoi (éventuellement vide)
La longueur du sens trouvé (nombre de caractères)

Bailly_es_sens.csv : le sens est non-vide et le renvoi est vide
Bailly_es_renv.csv : le sens est vide et le renvoi est non-vide
Bailly_es_probl.csv : le sens est non-vide et le renvoi est non-vide (ce sont quelques cas qui posent problème puisqu'en principe sens et renvois sont exclusifs)

Fichiers extraits du Bailly :

Le fichier Bailly_renv.csv contient les entrées identifiées comme des renvois (il y en a 15 436 -il n'a quasiment pas changé car les renvois des cas complexes sont restés dans les sens puisque, la plupart du temps, ce n'est qu'une acception parmi d'autres qui donne un renvoi). Les lignes contiennent trois champs : l'entrée, le renvoi et les indications trouvées. Ces dernières sont : désinences (des), génitif (gens) et article (entre parenthèses), éventuellement aussi quelques mots clefs. Elles sont maintenant groupées dans un seul champ (éventuellement vide). Il faut noter que je n'ai pas vérifié si le renvoi existe, comme entrée ou sous-entrée. Mais il n'est pas nécessaire de vérifier que tous les renvois mènent quelque part, puisqu'on n'est pas sûr que tous les renvois soient utiles (une première estimation dit qu'environ un tiers des renvois sera utile). Quand on fera la recherche d'un lemme (du lexique) et qu'on trouvera un renvoi ne menant nulle part, il sera temps de s'en occuper...

ἀϐόατος	> ἀϐόητος	
ἀϐόηθος	> ἀϐοήθητος	des : ος, ον, 
ἀϐουλί	> ἀϐουλήτως	adv. 
ἁϐροσύνη	> ἁϐρότης	gens : ης (ἡ) 
ἁϐροχαίτης	> ἁϐροκόμης	gens : ου, adj. m. 
Ἀϐυδηνοκόμης	> Ἀϐυδοκόμης

Le fichier Bailly_sens.csv est le fichier principal. Comme son nom l'indique, il contient les entrées pour lesquelles je pense avoir réussi à isoler un sens (il y en a 89 374). Il contient les entrées (première colonne), le sens trouvé (2e colonne), le nombre de caractères que compte le sens (3e colonne, uniquement pour repérer facilement les sens qui sont trop longs et qui mériteraient d'être abrégés). Viennent ensuite les indications relevées (4e colonne).

ἀασμός	exhalaison, souffle	19	gens : οῦ (ὁ) 
1 ἄατος	insatiable de	13	des : ος, ον 
2 ἄατος	pernicieux, funeste	19	des : ος, ον 
2 ἀάω	rassasier	9	
ἀϐαθής	sans profondeur	15	des : ής, ές 
...
ᾠώδης	qui ressemble à un œuf, ovale, ovoïde	37	des : ης, ες, 
ἀάατος	inviolable ; invincible ; très pénible	38	des : ος, ον 
1 ἀάω	troubler l'esprit, frapper de vertige ou de folie, avoir l'esprit égaré ; frapper d'une calamité, causer un malheur ; troubler l'esprit, égarer, tromper ; commettre une faute par aveuglement d'esprit	199	tr. intr.

Les sens tirés des cas complexes ont été ajoutés à la fin du fichier obtenu avec les cas simples. Dans l'exemple ci-dessus, on voit à la fin deux mots qui devraient s'intercaler parmi ceux du début. On voit aussi que 1 ἀάω est formé du groupement des divers sens (séparés par un ";") et qu'il est devenu trop long.

Le fichier Bailly_subst.csv contient les substantifs et les adverbes qui sont perdus dans d'autres articles (souvent des adjectifs, parfois des verbes). Il y a 5 243 lignes (un même mot peut apparaître plusieurs fois ; je n'ai pas encore fait de tri -s'il faut en faire un). Elles donnent :
1. l'article (pour les substantifs) ou le mot-clef adv. (pour les adverbes)
2. la forme (comme elle était parfois abrégée, je l'ai reconstituée à la main, en espérant ne pas avoir écrit trop d'horreurs -je n'ai aucune connaissance en Grec)
3. le sens
4. le lemme (l'entrée du Bailly) où j'ai trouvé ce mot
5. les indications relatives à l'entrée du dico et pas au mot trouvé

οἱ	ἐπίλεκτοι	soldats d'élite	ἐπίλεκτος	des : ος, ον, 
τὰ	ἐπίλυτρα	la rançon	ἐπίλυτρος	des : ος, ον, 
ἡ	ἐπιμελητική	l'art de prendre soin de, diligence, vigilance	ἐπιμελητικός	des : ή, όν, 
adv.	ἐπίμεστα	en surabondance	ἐπίμεστος	des : ος, ον, adv. 
τὸ	ἐπιμόριον	nombre contenant un entier plus une fraction avec 1 pour numérateur	ἐπιμόριος	des : ος, ον, 
adv.	ἐπίμοχθον	laborieusement	ἐπίμοχθος	des : ος, ον adv. 
ὁ	ἐπίνικος	chant de victoire	ἐπίνικος	des : ος, ον 
...
τὸ	ἐπίκωπον	navire muni de rames	ἐπίκωπος	des : ος, ον 
τὸ	ἐπιμελές	soin ou sollicitude pour	ἐπιμελής	des : ής, ές 
τὰ	ἐπιμήνια	sacrifices mensuels ; provisions ou dépenses mensuelles ; menstrues	ἐπιμήνιος	des : ος, ον subst. adj. 
...
τὰ	ἐπιφερόμενα	les offrandes qu'on dépose sur un autel ou sur une tombe en l'honneur d'un mort	ἐπιφέρω	tr. intr. 
τὰ	ἐπιφερόμενα	les événements futurs, l'avenir	ἐπιφέρω	tr. intr.

Ici aussi, les mots dérivés issus des cas complexes viennent en deuxième partie. Je donne aussi un exemple où le même mot apparaît avec deux sens différents τὰ ἐπιφερόμενα.

Ce dernier fichier Bailly_subst.csv est probablement le plus discutable. D'une part, il contient peut-être des horreurs dues à mon ignorance de Grec. D'autre part, il pose une question plus fondamentale de savoir quand un adjectif substantivé devient un lemme à part entière. Y a-t-il un critère objectif pour trancher la question ? On peut souvent estimer qu'il y a un substantif sous-entendu (pour donner le genre) et que l'adjectif reste un qualificatif de ce nom inexistant (pas sûr que ça aide beaucoup un étudiant débutant).

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

About the data in this folder

Alpheios dictionary data

Eulexis alignment data

Raw data

Alpheios (`raw/alpheios/*`)

Eulexis (`raw/eulexis/*`)

Fichiers divers

Anciens fichiers avec les entrées secondaires :

Fichiers extraits du Bailly :

Files

README.md

Latest commit

History

README.md

File metadata and controls

About the data in this folder

Alpheios dictionary data

Eulexis alignment data

Raw data

Alpheios (raw/alpheios/*)

Eulexis (raw/eulexis/*)

Fichiers divers

Anciens fichiers avec les entrées secondaires :

Fichiers extraits du Bailly :

Alpheios (`raw/alpheios/*`)

Eulexis (`raw/eulexis/*`)