Ищу специалиста, который сможет сделать автоматизированный парсинг таблиц с сайта myip.ms и сохранение данных в БД без дублирования.
Что нужно:
Что нужно:
- Источники данных и расписание:
- Текущая база сайтов
URL: https://myip.ms/browse/sites/1
• Спарсить все записи (~17 млн)
• Далее — обновление 1 раз в неделю (кол-во страниц указываю сам).
- История изменений сайтов (IP-изменения)
URL: https://myip.ms/browse/sites_history/Sites_IP_Address_Change_History
• Спарсить все доступные страницы (~170 млн)
• Далее — обновление 1 раз в неделю (кол-во страниц указываю сам). - Удалённые домены
URL: https://myip.ms/browse/sites_deleted/1/countryID/
• Спарсить все страницы(~ 8 млн)
• Далее — обновление 1 раз в неделю (кол-во страниц указываю сам).
- Текущая база сайтов
- Требования к реализации:
- Сбор всех полей таблиц в базу данных.
- Исключение дублей при обновлении.
- Возможность гибко менять URL источников.
- Нужны и шаблоны для допарсинга, и сами базы (по результатам первичного сбора).



