- Регистрация
- 05.06.2016
- Сообщения
- 170
- Реакции
- 31
- Баллы
- 28
Шаблон для парсинга всех объявлений с (дошки объявлений, интернет магазина и так далее)
Парсинг на примере сайта kolesa
Шаблон легко можно изменить и спарсить другой сайт (например avito, olx или любой другой маркетплейс)
Структура шаблона
Файлы
1)price_mini_max (Цены для парсинга)
2)price_mini_max — копия (копирует от сюда цены)
3)url_page (сохраняет сюда результат парсинга)
4)url_podckategoria (ссылка с которой сейчас работают потоки)
5)general_url_podckategoria (база всех ссылок которые нужно спарсить, берет от сюда ссылку 1 если список url_podckategoria пуст)
Сам шаблон состоит из 4 блоков
1) Блок проверяет есть ли в списке url_podckategoria ссылка для парсинга если нет то берет из списка general_url_podckategoria
2)Блок берет цену (если цены закончились, ждет все потоки и берет вторую ссылку)
3)Проверяет если ответ с get запроса если нет меняет прокси
4)Парсит все товары с страницы
Что нужно настроить
1)Добавить все страницы парсинга (это или все города или категории если нужно спарсить весь сайт, или просто первую страницу нужной категории) в general_url_podckategoria
2)Поменять сам get запрос (это нужно посмотреть на странице сайта
, при установке минимальной цены например 5 и максимально 100
https://kolesa.kz/cars/aktau/?price[from]=5&price[to]=100
скопировать вставить в get и заменять значение на переменные)
{-Variable.test_podckategoria-}?price[from]={-Variable.price_mini-}&price[to]={-Variable.price_max-}&page={-Variable.plus_1_url_page-}
3)Поменя в проекте регулярки
3.1 Парсинг страниц на которой сейчас находимся — (это либо один кубик с регуляркой или два) нужно спарсить номер страницы на которой сейчас идет парсинг (логика в проекте такая что если на сайте 50 страниц, а внутришний цыкл шаблона переходит на 51 то сайт возвращает его на 50 либо ошибку это сигнал что все страницы спаршены.
3.2 Регулярка для парсинга всех обьявлений -Парсинг всех обьявлений в список.
3.3 Нужно в конце протестировать как выходит проект по последней странице, сайты разные и ответы у них разные.
Если есть вопросы или предложения по улучшению шаблона пишите.
Парсинг на примере сайта kolesa
Шаблон легко можно изменить и спарсить другой сайт (например avito, olx или любой другой маркетплейс)
Структура шаблона
Файлы
1)price_mini_max (Цены для парсинга)
2)price_mini_max — копия (копирует от сюда цены)
3)url_page (сохраняет сюда результат парсинга)
4)url_podckategoria (ссылка с которой сейчас работают потоки)
5)general_url_podckategoria (база всех ссылок которые нужно спарсить, берет от сюда ссылку 1 если список url_podckategoria пуст)
Сам шаблон состоит из 4 блоков
1) Блок проверяет есть ли в списке url_podckategoria ссылка для парсинга если нет то берет из списка general_url_podckategoria
2)Блок берет цену (если цены закончились, ждет все потоки и берет вторую ссылку)
3)Проверяет если ответ с get запроса если нет меняет прокси
4)Парсит все товары с страницы
Что нужно настроить
1)Добавить все страницы парсинга (это или все города или категории если нужно спарсить весь сайт, или просто первую страницу нужной категории) в general_url_podckategoria
2)Поменять сам get запрос (это нужно посмотреть на странице сайта
, при установке минимальной цены например 5 и максимально 100
https://kolesa.kz/cars/aktau/?price[from]=5&price[to]=100
скопировать вставить в get и заменять значение на переменные)
{-Variable.test_podckategoria-}?price[from]={-Variable.price_mini-}&price[to]={-Variable.price_max-}&page={-Variable.plus_1_url_page-}
3)Поменя в проекте регулярки
3.1 Парсинг страниц на которой сейчас находимся — (это либо один кубик с регуляркой или два) нужно спарсить номер страницы на которой сейчас идет парсинг (логика в проекте такая что если на сайте 50 страниц, а внутришний цыкл шаблона переходит на 51 то сайт возвращает его на 50 либо ошибку это сигнал что все страницы спаршены.
3.2 Регулярка для парсинга всех обьявлений -Парсинг всех обьявлений в список.
3.3 Нужно в конце протестировать как выходит проект по последней странице, сайты разные и ответы у них разные.
Если есть вопросы или предложения по улучшению шаблона пишите.
- Номер конкурса шаблонов
- Второй конкурс шаблонов
- Уровень сложности
- Средний
- Категория
- Парсинг



