Парсер OLX (POST/GET)

roma19058

Client
Регистрация
05.10.2018
Сообщения
10
Благодарностей
4
Баллы
3
Нужен работающий парсер для сбора телефонов с объявлений на OLX.KZ посредством POST/GET(для быстрого парсинга) запросов.
Интересует только телефонный номер(со сбором номера с начала этого года проблема) и ссылка на объявление.
Сам пытался писать но для меня пока не понятны некоторые детали, шаблон нужен для собственного использования(не для продажи номеров) поэтому если будет шаблон в открытом виде буду готов доплатить для дальнейшего изучения. Если кто то так же занимается разработкой данного парсера и не может продвинуться можем объединить усилия.
Telegram: @roma1905
 
Последнее редактирование:

roma19058

Client
Регистрация
05.10.2018
Сообщения
10
Благодарностей
4
Баллы
3
Шаблон найден, всем спасибо!
 

roma19058

Client
Регистрация
05.10.2018
Сообщения
10
Благодарностей
4
Баллы
3
За повтор темы https://zennolab.com/discussion/threads/parser-olx-post-get.62812/ извиняюсь, не знаю как отрыть еще раз и возможно ли это.
Вроде был найден исполнитель который продемонстрировал на видео работу, была произведена оплата и прислан не работающий парсер. За 2 недели ни один контакт спаршен мною не был парсер - не рабочий, исполнитель пропал на связь не выходит. Деньги улетели в трубу, в связи с этим попытка №2)))


Нужен работающий парсер для сбора телефонов с объявлений на OLX.KZ посредством POST/GET(для быстрого парсинга) запросов.
Интересует только телефонный номер(со сбором номера с начала этого года проблема) и ссылка на объявление.
Сам пытался писать но для меня пока не понятны некоторые детали, шаблон нужен для собственного использования(не для продажи номеров) поэтому если будет шаблон в открытом виде буду готов доплатить для дальнейшего изучения. Если кто то так же занимается разработкой данного парсера и не может продвинуться можем объединить усилия.
Telegram: @roma1905
 

Gang

Client
Регистрация
04.04.2010
Сообщения
577
Благодарностей
313
Баллы
63
Я смотрел запросы OLX, там для запроса номера телефона не хватает тех куков которые устанавливаются при загрузке страницы. Походу нужные дополнительные куки генерятся джаваскриптом.
Тут два варианта:

1. Саму страницу грузить в браузере, парсить все куки что там есть и подставлять уже в GET запрос на получение номера. Правда бот уже не будет быстрый)) Наверное, тогда уже проще кликать мышкой для получения номера.

2. Найти скрипт который генерит недостающие куки. Реверснуть его и переписать на C#. Или попробовать его выполнить в кубике JS.

p.s сам не пробовал, только мои предположения
 

Metrix

Client
Регистрация
03.01.2014
Сообщения
343
Благодарностей
271
Баллы
63
2. Найти скрипт который генерит недостающие куки. Реверснуть его и переписать на C#. Или попробовать его выполнить в кубике JS.
Да, вот только информации по этой теме не так много, особенно, если этот скрипт не просто какой-то код выполняет, а берёт со страницы в браузере исходные данные.
 

Gang

Client
Регистрация
04.04.2010
Сообщения
577
Благодарностей
313
Баллы
63
Да, вот только информации по этой теме не так много, особенно, если этот скрипт не просто какой-то код выполняет, а берёт со страницы в браузере исходные данные.
Можно дальше пойти) Данный скрипт может брать данные со страницы которые генерятся другим джаваскриптом, соответственно в запросе на получение страницы этих данных тоже не будет. И такую цепочку можно дальше продолжать. А если мы все такие хитрые сейчас реверснем все их защитные скрипты и разрабы OLX засекут что их опять парсят, им не составит труда, составить новую цепочку скриптов))
 

inotoxic

Client
Регистрация
20.04.2015
Сообщения
354
Благодарностей
162
Баллы
43
  • Спасибо
Реакции: Mikhail B.

Gang

Client
Регистрация
04.04.2010
Сообщения
577
Благодарностей
313
Баллы
63
Можно подумать, что сейчас этот сайт не парсят!?
Да парсят конечно. тут наверное вопрос в обьемах. Если все раньше парсили на запросах в сотни потоков на паблик проксях. То теперь будут браузером, медленнее и на покупных проксях
 

Metrix

Client
Регистрация
03.01.2014
Сообщения
343
Благодарностей
271
Баллы
63
Можно дальше пойти) Данный скрипт может брать данные со страницы которые генерятся другим джаваскриптом, соответственно в запросе на получение страницы этих данных тоже не будет. И такую цепочку можно дальше продолжать. А если мы все такие хитрые сейчас реверснем все их защитные скрипты и разрабы OLX засекут что их опять парсят, им не составит труда, составить новую цепочку скриптов))
Если понимать как обходить защиту, то хоть какую цепочку делай, принцип остаётся тем же самым, вот, его бы понять.
 

roma19058

Client
Регистрация
05.10.2018
Сообщения
10
Благодарностей
4
Баллы
3
1. Саму страницу грузить в браузере, парсить все куки что там есть и подставлять уже в GET запрос на получение номера. Правда бот уже не будет быстрый)) Наверное, тогда уже проще кликать мышкой для получения номера.
Для того чтобы собирать на Post/Get необходимо отправить пост запрос с данными которые генерирует JS. Получаем его в верхней переменной (скрин со стрелками). Затем надо отправить данные которые получаются пост запросом. Если в ответ придет кука с "0" в середине то она правильная и можно через API брать номер телефона(скрин номер 2). Вся загвоздка в js. JS я не знаю поэтому и не могу двинуться дальше.
 

Вложения

inotoxic

Client
Регистрация
20.04.2015
Сообщения
354
Благодарностей
162
Баллы
43

roma19058

Client
Регистрация
05.10.2018
Сообщения
10
Благодарностей
4
Баллы
3

Вложения

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)