Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

correct workflow #86

Merged
merged 45 commits into from
Apr 28, 2020
Merged
Show file tree
Hide file tree
Changes from 6 commits
Commits
Show all changes
45 commits
Select commit Hold shift + click to select a range
8efcc68
correct workflow
EEngl52 Apr 7, 2020
a364db2
Delete user_guide.md
EEngl52 Apr 7, 2020
9f7a3d1
Delete setup.md
EEngl52 Apr 7, 2020
d1972c7
Delete workflows.md
EEngl52 Apr 7, 2020
e81c062
add format and models
EEngl52 Apr 16, 2020
ef28a3d
Update workflows.md
EEngl52 Apr 16, 2020
2a96ce3
Update site/de/models.md
EEngl52 Apr 23, 2020
8c3ce20
Update site/de/models.md
EEngl52 Apr 23, 2020
daa21f6
Update site/en/workflows.md
EEngl52 Apr 23, 2020
29bcdcd
Update site/en/workflows.md
EEngl52 Apr 23, 2020
a064926
Update site/en/workflows.md
EEngl52 Apr 23, 2020
ebc389e
Update site/en/workflows.md
EEngl52 Apr 23, 2020
55e9274
Update site/en/workflows.md
EEngl52 Apr 23, 2020
7a73587
Update site/en/workflows.md
EEngl52 Apr 23, 2020
a9c2b3b
Update site/en/workflows.md
EEngl52 Apr 23, 2020
691983b
Update site/en/workflows.md
EEngl52 Apr 23, 2020
4ef45d4
Update site/en/workflows.md
EEngl52 Apr 23, 2020
bc8c651
Update site/en/workflows.md
EEngl52 Apr 23, 2020
9fb19c5
Update site/en/workflows.md
EEngl52 Apr 23, 2020
054bd62
Update site/en/workflows.md
EEngl52 Apr 23, 2020
0c978d8
Update site/en/workflows.md
EEngl52 Apr 23, 2020
8438162
Update site/en/workflows.md
EEngl52 Apr 23, 2020
3b4e3ed
Update site/en/workflows.md
EEngl52 Apr 23, 2020
849975e
Update site/en/workflows.md
EEngl52 Apr 23, 2020
d691256
Update site/en/workflows.md
EEngl52 Apr 23, 2020
8f3cd44
Update site/en/workflows.md
EEngl52 Apr 23, 2020
ce6d40d
add bertsky's suggestions
EEngl52 Apr 23, 2020
9a98292
Merge branch 'new_workflow' of https://github.com/kba/ocrd-website in…
EEngl52 Apr 23, 2020
23a6144
Modelle -> Schrift- und Sprachmodelle
kba Apr 24, 2020
d72f135
:art: format redirect call in notes
kba Apr 24, 2020
d523926
briefly describe @JKamlah/ocrd_pagetopdf
kba Apr 24, 2020
11b6406
/de/models -> /de/modelle, formatting, models added to menu
kba Apr 24, 2020
d4fa1e8
Merge branch 'master' into new_workflow
kba Apr 24, 2020
a404953
rebuild
kba Apr 24, 2020
7250eb6
Update site/en/workflows.md
EEngl52 Apr 27, 2020
7f40977
Update site/en/workflows.md
EEngl52 Apr 27, 2020
96af9a8
Update site/en/workflows.md
EEngl52 Apr 27, 2020
39c9cf1
Update site/en/workflows.md
EEngl52 Apr 27, 2020
ba0f541
Update site/en/workflows.md
EEngl52 Apr 27, 2020
89eb7ab
Update site/en/workflows.md
EEngl52 Apr 27, 2020
2dbd45f
update workflows
EEngl52 Apr 28, 2020
60089aa
Update site/en/workflows.md
EEngl52 Apr 28, 2020
859c9b2
Update site/en/workflows.md
EEngl52 Apr 28, 2020
270b00e
Update site/en/workflows.md
EEngl52 Apr 28, 2020
9b8cc61
Update site/en/workflows.md
EEngl52 Apr 28, 2020
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
50 changes: 50 additions & 0 deletions site/de/models.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,50 @@
# OCR-Modelle

Für die Texterkennung wird ein geeignetes OCR-D-Modul und ein dazu passendes
Sprach-/Schriftmodell benötigt. Diese Seite gibt einen Überblick über die
wichtigsten Modelle und Modell-Repositorien.

## ocrd-tesserocr-recognize

Dieses Modul verwendet Tesseract 4.1 oder neuer für die Texterkennung. Tesseract benötigt
Sprach- oder Schriftmodelle. Dies sind Dateien in einem speziellen Format. Sie enthalten
mindestens eine Liste mit dem bekannten Zeichensatz ("unicharset") und das neuronale Netz
für die Texterkennung ("lstm"), optional auch noch Wörterbücher ("wordlist") und weitere Komponenten.
Sprachmodelle sind im Zeichensatz und im Wörterbuch auf eine Sprache (z. B. deu = deutsch) beschränkt.
Schriftmodelle enthalten einen umfangreicheren Zeichensatz und Wörterbücher aus mehreren Sprachen mit
der gleichen Schrift (z. B. Latin = lateinische Schrift mit englisch, deutsch, französisch,
spanisch, italienisch, ...).
EEngl52 marked this conversation as resolved.
Show resolved Hide resolved

Für Tesseract gibt es mehr als 100 Sprach- und Schriftmodelle, die von Google erzeugt ("trainiert")
wurden. Daneben gibt es aber auch noch weitere Modelle von anderen Anbietern, und man kann auch eigene
Modelle entweder komplett neu oder auf Basis vorhandener Modelle erstellen. Eigenes Training wird durch
`tesstrain` gut unterstützt.
EEngl52 marked this conversation as resolved.
Show resolved Hide resolved

Die Modelle von Google gibt es jeweils in drei Varianten:

[`tessdata_fast`](https://github.com/tesseract-ocr/tessdata_fast) Diese Variante wird auch von den meisten
Linux-Distributionen angeboten und ist besonders schnell bei der Texterkennung. Sie verwendet neuronale Netzwerke.
[`tessdata_best`](https://github.com/tesseract-ocr/tessdata_best) Diese Variante braucht deutlich mehr Zeit bei der
Texterkennung, kann aber im Einzelfall(nicht generell!) bessere Ergebnisse liefern. Sie verwendet neuronale Netzwerke.
Eigenes Training neuer Modelle auf Basis vorhandener Modelle setzt ebenfalls diese Variante voraus.
[`tessdata`](https://github.com/tesseract-ocr/tessdata) Diese Variante ist ähnlich schnell wie tessdata_fast, enthält
aber zusätzlich zu den neuronalen Netzwerken auch noch die musterbasierte Zeichenerkennung von Tesseract 3.
Man kann damit also zwei unterschiedliche Texterkennungsmethoden kombinieren, was in Einzelfällen zu besseren Ergebnissen
führen kann.

### Schrift- und Sprachmodelle für historische Drucke
Die folgenden Modelle für Tesseract gibt es:

`deu_frak` Älteres Sprachmodell für deutsche Fraktur. Dieses Modell war mit Tesseract 3 gebräuchlich,
ist aber heute nicht mehr zu empfehlen.
`deu` Sprachmodell für deutsche Antiqua, das aber auch etwas Fraktur erkennen kann.
`frk` Sprachmodell für deutsche Fraktur, das aber auch etwas Antiqua erkennen kann.
`Latin` Schriftmodell für lateinische Antiqua-Schriften, das aber auch etwas Fraktur erkennen kann.
`Fraktur` Schriftmodell für Fraktur-Schriften, das aber auch Antiqua-Schriften ganz gut erkennt. Fehler beim
Erzeugen dieses Modells haben zur Folge, dass es kein Paragraphzeichen kennt und die Ligaturen `ch` und `ck`
häufig als Kleiner- und Größerzeichen "erkennt".

Weitere Frakturmodelle. Ausgehend von Fraktur sind mit Hilfe von [GT4HistOCR](https://zenodo.org/record/1344132)
weitere Modelle der [UB Mannheim](https://ub-backup.bib.uni-mannheim.de/~stweil/ocrd-train/data/Fraktur_5000000/)
erzeugt worden, die für ein breites Spektrum historischer Drucke gute Ergebnisse liefern. Diese Modelle können
auch kombiniert werden, was in der Regel noch bessere Ergebnisse bringt, allerdings auch dann mehr Zeit kostet.
kba marked this conversation as resolved.
Show resolved Hide resolved
Loading