Только лишь демо, если у вас есть желание - можете сделать вывод на web-клиент или бот с БД, пока только в .txt
- Selenium + chromedriver
- BS4 + lxml
- Tesseract OCR + мод .traineddata
- Docker
Производится в файле settings.yml, где:
- city_in_url - город, который отображается в URL объявлений на сайте;
- numbers_count - количество необходимых номеров;
- phone_number_length - длинна номера (для России 11);
- second_url - URL категории товаров, по которой собираем номера. Обратите внимание на параметр &user=1 в URL, необходимый для отображения объявлений только от частных пользователей.
Вывод осуществляется в OUTPUT.txt
- Иногда selenium отдаёт selenium.common.exceptions.TimeoutException, просто перезапускаете docker
- Нет фильтрации на дубли номеров