Как получить/Спарсить все внешние ссылки с сайта.
Понимаю что для начала нужно получить все страницы самого сайта, но не знаю как ходить по всем страницам, и в какой момент нужно остановиться.
Как получить/Спарсить все внешние ссылки с сайта.
Понимаю что для начала нужно получить все страницы самого сайта, но не знаю как ходить по всем страницам, и в какой момент нужно остановиться.
Что то было и помоему в конкурсных статьях тоэже пороскакивало решение. Мысль была следующая. Получаем код страницы, из него регулярками выдираем внутренние ссылки, кладем в базу и так пока не пройдем все что собираем.
Да, как уж сказано было выше, было что то на форуме на эту тему.
Вот тут есть несколько сервисов, которые можно использовать для сбора страниц сайта.
И вот тут есть конкурсный готовый генератор сайтмапа для Зеннопостера.
А уже из собранных ссылок удалять ссылки с этим же доменом, оставляя тем самым только внешние.
В a-parsere из коробки есть с кучей настроек под тюнинг
Если целевой конкретный сайт можно и из js ссылки подтягивать - слегка подкрутив (все с примерами)
недешевый, но и может еще туеву кучу чего