Легко настраиваемый парсер любого маркетплейса

yarchino

Client
Регистрация
05.06.2016
Сообщения
170
Реакции
31
Баллы
28
Шаблон для парсинга всех объявлений с (дошки объявлений, интернет магазина и так далее)
Парсинг на примере сайта kolesa
Шаблон легко можно изменить и спарсить другой сайт (например avito, olx или любой другой маркетплейс)
Структура шаблона
Файлы
Screenshot_9.jpg

1)price_mini_max (Цены для парсинга)
2)price_mini_max — копия (копирует от сюда цены)
3)url_page (сохраняет сюда результат парсинга)
4)url_podckategoria (ссылка с которой сейчас работают потоки)
5)general_url_podckategoria (база всех ссылок которые нужно спарсить, берет от сюда ссылку 1 если список url_podckategoria пуст)

Сам шаблон состоит из 4 блоков
1) Блок проверяет есть ли в списке url_podckategoria ссылка для парсинга если нет то берет из списка general_url_podckategoria
2)Блок берет цену (если цены закончились, ждет все потоки и берет вторую ссылку)
3)Проверяет если ответ с get запроса если нет меняет прокси
4)Парсит все товары с страницы

Что нужно настроить
1)Добавить все страницы парсинга (это или все города или категории если нужно спарсить весь сайт, или просто первую страницу нужной категории) в general_url_podckategoria
Screenshot_1.jpg
2)Поменять сам get запрос (это нужно посмотреть на странице сайта
, при установке минимальной цены например 5 и максимально 100
https://kolesa.kz/cars/aktau/?price[from]=5&price[to]=100
скопировать вставить в get и заменять значение на переменные)
{-Variable.test_podckategoria-}?price[from]={-Variable.price_mini-}&price[to]={-Variable.price_max-}&page={-Variable.plus_1_url_page-}

3)Поменя в проекте регулярки
Screenshot_2.jpg
3.1 Парсинг страниц на которой сейчас находимся — (это либо один кубик с регуляркой или два) нужно спарсить номер страницы на которой сейчас идет парсинг (логика в проекте такая что если на сайте 50 страниц, а внутришний цыкл шаблона переходит на 51 то сайт возвращает его на 50 либо ошибку это сигнал что все страницы спаршены.
3.2 Регулярка для парсинга всех обьявлений -Парсинг всех обьявлений в список.
3.3 Нужно в конце протестировать как выходит проект по последней странице, сайты разные и ответы у них разные.
Если есть вопросы или предложения по улучшению шаблона пишите.
 
Номер конкурса шаблонов
  1. Второй конкурс шаблонов
Уровень сложности
Средний
Категория
  1. Парсинг

Вложения

А если парсить из интернет магазина и переносить в свой магаз...???
Можно использовать, в этом и прелесть этого проекта можно легко настроить под свою задачу.
 
Добрый день, с кем можно пообщаться по поводу работы софта, есть пару вопросов связанные с процессом
 
Можно в телеграмм @quaas
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)