Skip to content

Avito.ru numbers dumper with selenium, beautifulsoup and tesseract ocr

License

Notifications You must be signed in to change notification settings

GeorgiyDemo/avitodumper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

35 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Дампер номеров с Avito

Только лишь демо, если у вас есть желание - можете сделать вывод на web-клиент или бот с БД, пока только в .txt

Стек

  • Selenium + chromedriver
  • BS4 + lxml
  • Tesseract OCR + мод .traineddata
  • Docker

Настройка

Производится в файле settings.yml, где:

  • city_in_url - город, который отображается в URL объявлений на сайте;
  • numbers_count - количество необходимых номеров;
  • phone_number_length - длинна номера (для России 11);
  • second_url - URL категории товаров, по которой собираем номера. Обратите внимание на параметр &user=1 в URL, необходимый для отображения объявлений только от частных пользователей.

Вывод осуществляется в OUTPUT.txt

Проблемы/доделать

  • Иногда selenium отдаёт selenium.common.exceptions.TimeoutException, просто перезапускаете docker
  • Нет фильтрации на дубли номеров

Пример работы

About

Avito.ru numbers dumper with selenium, beautifulsoup and tesseract ocr

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published