-
Notifications
You must be signed in to change notification settings - Fork 2
Аналитика #1
Comments
http://www.codeisart.ru/python-shingles-algorithm/
2)Разбить текст на подпоследовательности — шинглы.
Если есть 2 строки, проходимся по каждой -> есть 2 массива контрольных сумм (контрольные суммы для каждого шингла-слова). Далее сравниваем эти множества, можно посчитать количество совпадений, задать число - процент совпадений, на основании которого решаем, являются ли строки нечеткими дубликатами (например, при совпадении >=85% контрольных сумм строки считаются нечеткими дубликатами, и удаляем один из дубликатов.) |
Как сравнивать шинглы: https://housecomputer.ru/seo/shingles/shingles-algorithm.html ( с помощью 84х статических функций)
|
библиотека для нечёткого сравнения строк строк, как пользоваться: https://habr.com/ru/post/491448/ |
Есть ещё библиотека whoosh: https://readthedocs.org/projects/whoosh/downloads/pdf/latest/ |
Будет полезно ознакомиться: https://moz.com/devblog/near-duplicate-detection Бенчмарк большого количества хеш-функций: https://github.com/rurban/smhasher - возможно стоит присмотреться и понять подойдут ли самый быстрые для нашей задачи |
Libraries: python-string-similarity - a library implementing different string similarity and distance measures using Python SnaPy - python library for detecting near duplicate texts in a corpus at scale using Locality Sensitive Hashing deduplication removes duplicate documents via popular algorithms such as SimHash, SpotSig, Shingling The Python Record Linkage Toolkit is a library to link records in or between data sources. The toolkit provides most of the tools needed for record linkage and deduplication. The package is developed for research and the linking of small or medium sized files. |
Прежде чем начать работу - нужно провести рисёрч инструментов/библиотек для удаления нечётких дубликатов строк, которые уже кем-то написаны. И полезно будет сразу же почитать о видах хешей (MinHash, SimHash, MurmurHash).
Публикуйте, пожалуйста, тут ссылки на прочитанные статьи с коротким комментарием что вы узнали от туда по теме проекта.
The text was updated successfully, but these errors were encountered: