- Регистрация
- 16.12.2016
- Сообщения
- 123
- Благодарностей
- 18
- Баллы
- 18
Случайно нашёл подработу, нужно было спарсить всех ведущих с сайта горько(свадебный портал).
По началу казалось не чего сложного , но проблема появилась почти сразу же :
Перейдём к непосредственному решению проблем о которых я говорил выше , как многие знают сейчас очень популярно API, сайт горько (как выяснилось) работает с использованием таких запросов.
После того как я нажал на свой город вылезла строка поиска , в этом время отслеживаем запросы которые происходят на сайте.
Видим запросы от сторонних сервисов и пара от сайта горько , тот запрос который меня заинтересовал я выделил . Вот и сдвинулось дело с мёртвой точки, я скопировал запрос и открыл его в браузере(тор)
, получил следующее:
Видим что тут показан мой регион и города которые к нему относятся, так же есть ссылки и ID города(не очень нужная информация). Самое главное мы можем собрать ссылки . Конечно можно было просто скачать список регионов РФ и вбивать их в поиск на сайте. Но к сожалению время поджимало и приходилось искать способ как получить все ссылки
Я обратил внимание на строку в браузере :
per_page=10 говорит о том что на сранице показывается 10 ссылок на города,
region_id- id города.
Почитав интернет стало известно что по api можно увидеть 100 позиций,соответственно per_page теперь =100.
Затем я решил поэксперементировать и стёр цифры ID города, в ответ от сервера я получил все города которые есть на сайте .
total_count сколько всего городов на сайте.
page_count сколько страниц по 100 городов
page текущая страница
Я видел текущую страницу но не понимал как её менять т.к. в адресной строке ничего не было в виду того что я вообще не разбираюсь в кодинге решил действовать на абум ), просто сам дописал в адресную строку page=2 и конечно это сработало.
Теперь осталось тупо спарсить ссылки на города( подробно расписывать не буду, я думаю это тут уже умеет каждый).
Первая проблема была решена , осталось решить вопрос с кнопкой: показать ещё 20.
Копируем url запроса в браузер и смотрим что там есть :
Видим почти то же самое что и в запросе по городам:
Per_page пишем за место 20 -100 и получаем 100 человек на страницу, по аналогии с городами тупо листаем странице подменой номера .
Таким же образом я сделал с кажждым городом которые у меня были спаршены в файл до этого .
Но после того как я получил ссылки на всех ведущих появилась новая проблема ...
Если не нажать на кнопку показать телефон то мы сможем получить только имя фамилию и город.
Конечно вы скажите можно просто открыть страницу ведущего в браузерном режиме и спарсить данные . Но так уже было не интересно .
Просто копируем этот запрос в экшен http-->GET запрос, и затем уже из get запроса парсим экшеном работа с текстом нужную нам информацию. Для того что бы стпарсить всех людей нужно было просто менять id которые идут в строке запроса псле users/"тут айди"?embed.
ID каждого пофиля так же можно получить GET запросам к ссылке на его страницу.
А теперь Profit.Конечно как обычно это бывает появятся люди которые начнут кричать :"это всё неправда"..."что на этом заработать вообще можно" и т.п.
Специально для вас выкладываю скрин :
PS:ZenoPozter это программа с помощью которой не может заработать только ленивый .
По началу казалось не чего сложного , но проблема появилась почти сразу же :
- Нет карты сайта что бы получить ссылку на все города;
- Сайт показывает по 20 ведущих , затем нужно нажать показать ещё;
Перейдём к непосредственному решению проблем о которых я говорил выше , как многие знают сейчас очень популярно API, сайт горько (как выяснилось) работает с использованием таких запросов.
После того как я нажал на свой город вылезла строка поиска , в этом время отслеживаем запросы которые происходят на сайте.
Видим запросы от сторонних сервисов и пара от сайта горько , тот запрос который меня заинтересовал я выделил . Вот и сдвинулось дело с мёртвой точки, я скопировал запрос и открыл его в браузере(тор)
, получил следующее:
Видим что тут показан мой регион и города которые к нему относятся, так же есть ссылки и ID города(не очень нужная информация). Самое главное мы можем собрать ссылки . Конечно можно было просто скачать список регионов РФ и вбивать их в поиск на сайте. Но к сожалению время поджимало и приходилось искать способ как получить все ссылки
Я обратил внимание на строку в браузере :
per_page=10 говорит о том что на сранице показывается 10 ссылок на города,
region_id- id города.
Почитав интернет стало известно что по api можно увидеть 100 позиций,соответственно per_page теперь =100.
Затем я решил поэксперементировать и стёр цифры ID города, в ответ от сервера я получил все города которые есть на сайте .
total_count сколько всего городов на сайте.
page_count сколько страниц по 100 городов
page текущая страница
Я видел текущую страницу но не понимал как её менять т.к. в адресной строке ничего не было в виду того что я вообще не разбираюсь в кодинге решил действовать на абум ), просто сам дописал в адресную строку page=2 и конечно это сработало.
Теперь осталось тупо спарсить ссылки на города( подробно расписывать не буду, я думаю это тут уже умеет каждый).
Первая проблема была решена , осталось решить вопрос с кнопкой: показать ещё 20.
Решение вопроса с кнопкой показать ещё 20
После нажатия на кнопку показать ещё 20 мы получаем такой запрос :Копируем url запроса в браузер и смотрим что там есть :
Видим почти то же самое что и в запросе по городам:
Per_page пишем за место 20 -100 и получаем 100 человек на страницу, по аналогии с городами тупо листаем странице подменой номера .
Таким же образом я сделал с кажждым городом которые у меня были спаршены в файл до этого .
Но после того как я получил ссылки на всех ведущих появилась новая проблема ...
Если не нажать на кнопку показать телефон то мы сможем получить только имя фамилию и город.
Конечно вы скажите можно просто открыть страницу ведущего в браузерном режиме и спарсить данные . Но так уже было не интересно .
Кнопка показать телефон ,решение.
Нажимаем на кнопку показать телефон и смотрим что происходит :Просто копируем этот запрос в экшен http-->GET запрос, и затем уже из get запроса парсим экшеном работа с текстом нужную нам информацию. Для того что бы стпарсить всех людей нужно было просто менять id которые идут в строке запроса псле users/"тут айди"?embed.
ID каждого пофиля так же можно получить GET запросам к ссылке на его страницу.
А теперь Profit.
Специально для вас выкладываю скрин :
PS:ZenoPozter это программа с помощью которой не может заработать только ленивый .
Вложения
-
55 КБ Просмотры: 154
Последнее редактирование: