Парсер hh.ru

diaclip

Client
Регистрация
27.08.2020
Сообщения
3
Благодарностей
1
Баллы
3
Доброго времени суток! При написании парсера hh.ru после отправки get-запроса в ответе получаю 20 ссылок вместо 50. При web парсинге видны все 50 ссылок.
Выяснил, что изначально все вакансии передаются в тег template, после чего уже строятся джаваскриптом в тело страницы. requests не выполняет JS, поэтому код так и остается лежать в том теге с id HH-Lux-InitialState, где лежит обычный JSON. Подскажите, что можно сделать дальше, чтобы получить все 50 ссылок?
 

Deisler

Client
Регистрация
26.10.2019
Сообщения
486
Благодарностей
190
Баллы
43
Быстрое решение это не пытаться спарсить с сайта вакансии пачками по 50 штук, а парсить пачками по 20 штук. И что бы у вас не было потери данных, в виде 30 не забранных ссылок со страницы, просто указывайте в url что вам и нужно выдавать результат по 20 ссылок.
Поменяйте в вашей ссылке items_on_page=50 на items_on_page=20
1692135194682.png



Но если для вас принципиально парсить именно пачками по 50 результатов, то на скорую руку решение в голову мне не пришло. А если кто-то вам его подскажет как это делать, то тогда логичнее парсить уже не пачками по 50 результатов на странице, а пачками по 100, т.к. сайт дает такую возможность
 
  • Спасибо
Реакции: diaclip

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)