Паук для парсинга страниц сайтов

Artproma

Client
Регистрация
01.07.2014
Сообщения
84
Реакции
12
Баллы
8
Было бы очень кстати иметь паука для пробежки по сайту.
Чтобы софт самостоятельно пробегал по всем страницам сайта.
На выходе получаем список со всеми страницами. А уж дальше многие найдут что с этим делать.
Но обязательно сделать выдержку! Чтобы обойти ограничения сайтов.
 
Было бы очень кстати иметь паука для пробежки по сайту.
Чтобы софт самостоятельно пробегал по всем страницам сайта.
На выходе получаем список со всеми страницами. А уж дальше многие найдут что с этим делать.
Но обязательно сделать выдержку! Чтобы обойти ограничения сайтов.
Делал такого паука на Зеннопостере. Есть также программы типа Sitemap Generator.
Задачу может облегчить до нулевой, если у сайта уже есть sitemap.xml, его обычно размещают в корне сайта, чтобы он открывался по адресу вроде https://site.com/sitemap.xml. Дополнительно его часто указывают в robots.txt строкой вида Sitemap: https://site.com/sitemap.xml.
 
  • Спасибо
Реакции: Artproma
Я тоже обхожу эту задачу сторонним софтом.
Касаемо sitemap. По хорошему его прячут. Есть открытые, да, но не всегда.
Просто было бы удобно все делать в одном софте.

Этож всего-лишь предложение.
 
Я тоже обхожу эту задачу сторонним софтом.
Касаемо sitemap. По хорошему его прячут. Есть открытые, да, но не всегда.
Просто было бы удобно все делать в одном софте.

Этож всего-лишь предложение.
Я понимаю, но могу сказать, что такого рода функционал из коробки вряд ли будет, очень специфичная задача и не всем нужна. Но проблема решаема через свой проект, который гуляет по страницам и собирает карту сайта, у меня был такой проект, поищу, если найду, то приложу.
 
  • Спасибо
Реакции: Artproma
Да просто, не стандартный адрес /sitemap.xml
А что-то типа /index.php?route=extension/feed/yandex_yml
Опять же все зависит от плагина. Каждый плагин имеет свой путь.
 
Да просто, не стандартный адрес /sitemap.xml
А что-то типа /index.php?route=extension/feed/yandex_yml
Опять же все зависит от плагина. Каждый плагин имеет свой путь.
В robots.txt должен декларироваться путь до Сайтмапа.
Вот например:

1782234204220.png
 
  • Спасибо
Реакции: one
Да не новичек я. Я прекрасно понимаю, где его прописывают.
Дело в том, что, чтобы не парсили люди, нагружая твой сайт и хостинг, и прячут сайтмап.
Да мне он и не нужен в принципе. Я все равно проверяю через лягушку и через content downloader.
 
Буллинг продолжается... ну чтож вперед.
А как же тогда ПС узнают о существовании такого файла?
Ну во-первых, каждому поисковику можно отдельно его скормить.
Во вторых, поисковики его могут игнорировать.
В третьих, не у всех он составлен правильно и иногда делает только хуже (опять же если не правильно настроен). Объяснять не буду почему.
 
Закройте вы уже эту тему.
Это было предложение, а теперь уже флуд пошел. Ни о чем.
 
  • Спасибо
Реакции: Oleg1987 и Dr.Pipetka

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)