Skip to content
This repository has been archived by the owner on Oct 26, 2021. It is now read-only.

Latest commit

 

History

History
18 lines (14 loc) · 1.15 KB

README.md

File metadata and controls

18 lines (14 loc) · 1.15 KB

deduplicator

Инструмент для выявления нечетких дубликатов строк. Deduplicator представляет из себя web-сервис и может быть использован в процессе работы TDC. Для тестирования предусмотрен пользовательский интерфейс.

На вход подается строка для проверки, deduplicator обрабатывает ее и отправляет ответ:
TRUE, если строка является нечетким дубликатом для какой-либо из предыдущих введенных строк
FALSE, если строка уникальна.

Установка

Склонировать репозиторий командой:
git clone https://github.com/TextDatasetCleaner/deduplicator

Установить зависимости командой:
pip install -r requirements.txt

Запуск

Запустить командой:
python3 app.py

Открыть в браузере:
http://127.0.0.1:5000