Как спарсить все url сайта?

Vero

Client
Регистрация
22.11.2019
Сообщения
33
Благодарностей
4
Баллы
8
Друзья, коллеги, такая задача: нужно спарсить все урлы сайта, которые содержат данный путь: https://service-centers.ru/s/

Пока приходится прибегать к помощи content downloader, но на мой взгляд это костыльный метод.

Есть возможность в зенно настроить подобный парсинг?
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 334
Благодарностей
9 086
Баллы
113
Есть возможность в зенно настроить подобный парсинг?
Если сайт имеет карту сайта, то можете пройтись по ссылкам в ней и с помощью инструмента "Парсинг страницы (Парсинг данных)" собрать урлы в список с встроенной фильтрацией по критерию "server-center.ru/s/", а затем удалить дубли через "Операции над списком - Удалить дубли".

Либо с помощью "Обработка текста" (по регулярке) из {-Page.Dom-} в список и потом удалить лишнее по критерию "не содержит текст" с помошью "Операции над списком - Удалить строки", а затем удалить дубли через "Операции над списком - Удалить дубли".
 
Последнее редактирование:
  • Спасибо
Реакции: Vero

backoff

Client
Регистрация
20.04.2015
Сообщения
6 042
Благодарностей
6 475
Баллы
113
у каждого +- нормального сайта, всегда есть карта сайта, и всегда первым делом ее надо искать в роботсе
идешь сюда
C#:
https://service-centers.ru/robots.txt
находишь это
C#:
Sitemap: https://service-centers.ru/sitemaps/sitemap.msk.xml.gz
выкачиваешь, обрабатываешь, радуешься
 
  • Спасибо
Реакции: Vero и Sergodjan

baracuda

Client
Регистрация
19.06.2013
Сообщения
793
Благодарностей
278
Баллы
63
ну или на запросах с регуляркой типа
Код:
(?<=href=")/s/.*?(?=")
 
  • Спасибо
Реакции: Sergodjan

kagorec

Client
Регистрация
24.08.2013
Сообщения
978
Благодарностей
521
Баллы
93
В карте сайта обычно не полный список страниц
 

backoff

Client
Регистрация
20.04.2015
Сообщения
6 042
Благодарностей
6 475
Баллы
113
В карте сайта обычно не полный список страниц
ну если карта делается руками, то да.
обычно у все cms все автоматизировано в этом плане, все что должно быть в индексе, будет и в карте.

опять же в роботсе можно найти это
C#:
Disallow: /s/*/map
Disallow: /s/*/print
Disallow: /s/*/contact
карта, принт версии страниц видимо, и страница контактов
при желании все можно вытащить, например написать паука, который сам весь сайт обойдет, но это гемобред в целом )
 
Регистрация
10.12.2015
Сообщения
46
Благодарностей
9
Баллы
8
Попробуй так
 

Вложения

  • Спасибо
Реакции: Vero

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)