Skip to content

Latest commit

 

History

History
55 lines (38 loc) · 6.47 KB

announcement.md

File metadata and controls

55 lines (38 loc) · 6.47 KB

Великий електронний словник української мови (ВЕСУМ)

Що це: мета проекту великого електронного словника української мови — створити відкритого електронного всеохопного словника, що міститиме слова української мови з парадигмами відмінювання. Окрім граматичної інформації, словник пропонує заміни слів-покручів, подає розрізнення омонімів з відмінними парадигмами, позначки рідковживаних слів тощо. Відкритість словника означає, що будь-хто може користуватися цим словником на свої потреби, й водночас будь-хто може (і мусить!:)) вносити пропозиції щодо вдосконалення словника.

Навіщо: щоб створити програмні засоби, що підтримують українську мову чи аналізують тексти українською мовою: автоматична перевірка орфографії, граматики та стилю, класифікація текстів, виділення іменованих сутностей, data mining тощо. Словник буде корисним на потреби створення корпусів, перевірки лінгвістичних гіпотез та аналізу лексики та морфології української мови.

Для кого: для мовознавців, комп'ютерних лінгвістів, програмістів, та всіх зацікавлених, що працюють з українською мовою.

Як працює: проект словника викладено на https://github.com/brown-uk/dict_uk. Проект містить слова та парадигми відмінювання. Кожне слово і кожна форма має набір тегів. Щоб згенерувати словник потрібно запустити скрипт (вимагає java 8 і gradle 2.11), що згенерує словник з усіма можливими словоформами.

Що всередині: понад 415 тис. слів, з яких генерується понад 6,5 млн словоформ. Кожна словоформа має лему та набір тегів (частина мови, морфологічні ознаки та додаткові позначки).

Де використовується: наразі у проектах перевірки орфографії (hunspell, зокрема у браузері Firefox та офісному ПЗ Libreoffice.org) та перевірки граматики в програмі LanguageTool. Планується використання в pymorphy2, Elastic Search, Solar.

Специфіка: хоч словник є незалежним і відкритим джерелом, його розробляли разом з модулем перевірки української граматики та стилю в LanguageTool. LanguageTool має додаткову функціональність, що добре доповнює словник і дає змогу використовувати його ще ефективніше. Для прикладу, український модуль в LanguageTool забезпечує розбиття українських текстів на речення та слова, динамічне тегування (наприклад, для складених слів, що їх пишуть через дефіс і що їх неможливо додати до словника в повному обсязі), часткове зняття омонімії в текстах тощо.

Дані словника доступні для використання згідно з умовами ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License" (https://creativecommons.org/licenses/by-nc-sa/4.0/)

Програмні засоби вільно розповсюджується за умов ліцензії GPL 3.0 або вище.

Чим не є: цей словник не є академічним, над ним не працюють жодні інститути та академії, тож він не претендує на істину в останній інстанції. Натомість він призначений для практичного вжитку в системах Natural Language Processing. Над словником працювали багато фахівців у галузі мовознавства, його успішно застосовано в ПЗ.

Більше:

Документація:

Приклад виходу:

Повний виходовий файл у форматі з відступами можна стягнути у розділі випусків (dict_corp_vis.txt.bz2):

Поточна статистика:

Що далі: словник постійно поповнюють та вдосконалюють (додають нові інформативні теги, виправляють помилки, вводять формати виводу тощо). У планах: створити веб-інтерфейс для користування словником, автоматичний морфологічний аналіз на основі словника.

Як ви можете взяти участь: почати використовувати словник і повідомляти про проблеми або можливі вдосконалення. Найпростіше це зробити на сторінці https://github.com/brown-uk/dict_uk/issues, форумі http://r2u.org.ua/forum/viewforum.php?f=45, але можна і електронною поштою.