Спарсить 40k URLs с 8 сайтов (нужен обход блокировок)

  • Автор темы Автор темы Seoandrii
  • Дата начала Дата начала

Seoandrii

Client
Регистрация
30.03.2020
Сообщения
29
Реакции
6
Баллы
3
Всем привет. Нужно спарсить 40000 url с 8 разных сайтов + сделать парсер.
1.Парсим только <h1>;
2.К-во суммарное url - 40 000;
3.К-во разных сайтов - 8;
4.Сложность - блокировка сайтами обращений к ним (CF или что-то еще используют).
5.Пример URL приведу в комментариях.

Мне нужен как сам парсер для любой версии ZenoPoster, так и уже готовое решение по этим 40к URL.

Пишите цену, договоримся.
 
Пример URLs, с которых нужно спарсить h1


Простой SEOFrog не тянет, т.к. блокируются все запросы.
 
на apollo.io ограничение на кол-во запросов по времени, а так на запросах парсится. либо долго парсить, либо большое кол-во proxy надо
 
остальные 7 сайтов?

Пример остальных 7 сайтов. Нужен готовый вариант + сам парсер :) По поводу проксей, возможно кто-то знает такой сервис и поймет, как его можно прикрутить к сему мероприятию?
 
на apollo.io ограничение на кол-во запросов по времени, а так на запросах парсится. либо долго парсить, либо большое кол-во proxy надо
Парсил при помощи SEOFrog с таймингом между URL в 10 сек, кажется. Меня заблочил, SEOFrog получает 429 код, причем сразу, первые 3 URL получили 403, затем дальше все 429.
 
Эх, думал кто-то напишет парсер :) Пойду в онлайн-парсеры за подписку. Если кто знает решение (какие API юзать и тп) - пишите. Слежу за топиком.
 
Спарсил частично. Юзаем сервис scrapingbee.com, который дает API. Его API можно юзать в виде url, который можно дописывать "перед" теми URL, которые вы хотите спарсить. Пример:

C#:
Развернуть Свернуть Копировать
https://app.scrapingbee.com/api/v1/?api_key=[B]API_KEY[/B]&url=https://www.apollo.io/companies/Sodal-Strategies/61344a3f43df57000100f085

1.Скорость парсинга медленная. Стоит ее увеличить или в 2 потока юзать - сразу отдаются капчи (почему?)
2.Если еще разгадывать капчи, то решение усложниться и придется писать парсер на ZenoPoster. Да и дополнительно денег тратить придется.
3.Zoominfo так и не спарсило :) как не крутись, отдает код 0 или 500 именно для zoominfo.
 
Последнее редактирование:

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)