Паук для парсинга страниц сайтов

Artproma

Client
Регистрация
01.07.2014
Сообщения
79
Реакции
11
Баллы
8
Было бы очень кстати иметь паука для пробежки по сайту.
Чтобы софт самостоятельно пробегал по всем страницам сайта.
На выходе получаем список со всеми страницами. А уж дальше многие найдут что с этим делать.
Но обязательно сделать выдержку! Чтобы обойти ограничения сайтов.
 
Было бы очень кстати иметь паука для пробежки по сайту.
Чтобы софт самостоятельно пробегал по всем страницам сайта.
На выходе получаем список со всеми страницами. А уж дальше многие найдут что с этим делать.
Но обязательно сделать выдержку! Чтобы обойти ограничения сайтов.
Делал такого паука на Зеннопостере. Есть также программы типа Sitemap Generator.
Задачу может облегчить до нулевой, если у сайта уже есть sitemap.xml, его обычно размещают в корне сайта, чтобы он открывался по адресу вроде https://site.com/sitemap.xml. Дополнительно его часто указывают в robots.txt строкой вида Sitemap: https://site.com/sitemap.xml.
 
  • Спасибо
Реакции: Artproma
Я тоже обхожу эту задачу сторонним софтом.
Касаемо sitemap. По хорошему его прячут. Есть открытые, да, но не всегда.
Просто было бы удобно все делать в одном софте.

Этож всего-лишь предложение.
 
Я тоже обхожу эту задачу сторонним софтом.
Касаемо sitemap. По хорошему его прячут. Есть открытые, да, но не всегда.
Просто было бы удобно все делать в одном софте.

Этож всего-лишь предложение.
Я понимаю, но могу сказать, что такого рода функционал из коробки вряд ли будет, очень специфичная задача и не всем нужна. Но проблема решаема через свой проект, который гуляет по страницам и собирает карту сайта, у меня был такой проект, поищу, если найду, то приложу.
 
  • Спасибо
Реакции: Artproma
да почти любой магазин на опенкарте например
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)