- Регистрация
- 05.06.2016
- Сообщения
- 170
- Благодарностей
- 31
- Баллы
- 28
Шаблон для парсинга всех объявлений с (дошки объявлений, интернет магазина и так далее)
Парсинг на примере сайта kolesa
Шаблон легко можно изменить и спарсить другой сайт (например avito, olx или любой другой маркетплейс)
Структура шаблона
Файлы
1)price_mini_max (Цены для парсинга)
2)price_mini_max — копия (копирует от сюда цены)
3)url_page (сохраняет сюда результат парсинга)
4)url_podckategoria (ссылка с которой сейчас работают потоки)
5)general_url_podckategoria (база всех ссылок которые нужно спарсить, берет от сюда ссылку 1 если список url_podckategoria пуст)
Сам шаблон состоит из 4 блоков
1) Блок проверяет есть ли в списке url_podckategoria ссылка для парсинга если нет то берет из списка general_url_podckategoria
2)Блок берет цену (если цены закончились, ждет все потоки и берет вторую ссылку)
3)Проверяет если ответ с get запроса если нет меняет прокси
4)Парсит все товары с страницы
Что нужно настроить
1)Добавить все страницы парсинга (это или все города или категории если нужно спарсить весь сайт, или просто первую страницу нужной категории) в general_url_podckategoria
2)Поменять сам get запрос (это нужно посмотреть на странице сайта
, при установке минимальной цены например 5 и максимально 100
https://kolesa.kz/cars/aktau/?price[from]=5&price[to]=100
скопировать вставить в get и заменять значение на переменные)
{-Variable.test_podckategoria-}?price[from]={-Variable.price_mini-}&price[to]={-Variable.price_max-}&page={-Variable.plus_1_url_page-}
3)Поменя в проекте регулярки
3.1 Парсинг страниц на которой сейчас находимся — (это либо один кубик с регуляркой или два) нужно спарсить номер страницы на которой сейчас идет парсинг (логика в проекте такая что если на сайте 50 страниц, а внутришний цыкл шаблона переходит на 51 то сайт возвращает его на 50 либо ошибку это сигнал что все страницы спаршены.
3.2 Регулярка для парсинга всех обьявлений -Парсинг всех обьявлений в список.
3.3 Нужно в конце протестировать как выходит проект по последней странице, сайты разные и ответы у них разные.
Если есть вопросы или предложения по улучшению шаблона пишите.
Парсинг на примере сайта kolesa
Шаблон легко можно изменить и спарсить другой сайт (например avito, olx или любой другой маркетплейс)
Структура шаблона
Файлы
1)price_mini_max (Цены для парсинга)
2)price_mini_max — копия (копирует от сюда цены)
3)url_page (сохраняет сюда результат парсинга)
4)url_podckategoria (ссылка с которой сейчас работают потоки)
5)general_url_podckategoria (база всех ссылок которые нужно спарсить, берет от сюда ссылку 1 если список url_podckategoria пуст)
Сам шаблон состоит из 4 блоков
1) Блок проверяет есть ли в списке url_podckategoria ссылка для парсинга если нет то берет из списка general_url_podckategoria
2)Блок берет цену (если цены закончились, ждет все потоки и берет вторую ссылку)
3)Проверяет если ответ с get запроса если нет меняет прокси
4)Парсит все товары с страницы
Что нужно настроить
1)Добавить все страницы парсинга (это или все города или категории если нужно спарсить весь сайт, или просто первую страницу нужной категории) в general_url_podckategoria
2)Поменять сам get запрос (это нужно посмотреть на странице сайта
, при установке минимальной цены например 5 и максимально 100
https://kolesa.kz/cars/aktau/?price[from]=5&price[to]=100
скопировать вставить в get и заменять значение на переменные)
{-Variable.test_podckategoria-}?price[from]={-Variable.price_mini-}&price[to]={-Variable.price_max-}&page={-Variable.plus_1_url_page-}
3)Поменя в проекте регулярки
3.1 Парсинг страниц на которой сейчас находимся — (это либо один кубик с регуляркой или два) нужно спарсить номер страницы на которой сейчас идет парсинг (логика в проекте такая что если на сайте 50 страниц, а внутришний цыкл шаблона переходит на 51 то сайт возвращает его на 50 либо ошибку это сигнал что все страницы спаршены.
3.2 Регулярка для парсинга всех обьявлений -Парсинг всех обьявлений в список.
3.3 Нужно в конце протестировать как выходит проект по последней странице, сайты разные и ответы у них разные.
Если есть вопросы или предложения по улучшению шаблона пишите.
- Категория
- Парсинг
- Номер конкурса шаблонов
- Второй конкурс шаблонов
- Уровень сложности
- Средний
Вложения
-
73,5 КБ Просмотры: 579
Для запуска проектов требуется программа ZennoPoster или ZennoDroid.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...
Для того чтобы запустить шаблон, откройте нужную программу. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.