Как реализовать парсиг всех страниц в интернете?

  • Автор темы Автор темы Aleksandr
  • Дата начала Дата начала

Aleksandr

Client
Регистрация
04.01.2014
Сообщения
206
Реакции
113
Баллы
43
Доброе утро, друзья )

Подскажите как можно реализовать парсинг всех страниц в интернете? Или хотя бы всех страниц определенного сайта, указав только один url адрес?
 
Ага))) таки тебя краулер интересует?))))
Есть миллион и маленькая тележка решений.
Xenu
Netpeak Spider
встроенный спайдер в контент даунлодер
Это те, которые я могу порекомендовать)))
Но на крупных сайтах - там где количество страниц более 200-300 тыс - они начинают спотыкаться и вылетают)) я сейчас в ленивом написании краулера на sql базе)))
 
  • Спасибо
Реакции: Aleksandr
Ищешь все теги href по регулярке , затем фигачишь в список. Далее переходишь по ним опять ищешь теги. Удаляешь дубли и добавляешь в список. И так по кругу. До тех пока парсинг страницы не будет возвращать 0 ссылок.
 
a-parser вполне без проблем справляется, хотя при 100 лямов линков начинал подтупливать если делать уник :)
 
Сдается мне а парсер, как и КД предоставит мне только списочек страниц, на которые он нашел ссылки... ну тоже хлеб, но хотелось бы все таки получить итоговый внутренний граф)))
Если вас не затруднит - просто ради эксперимента попробуйте просканировать целиком news.sportbox.ru я на нем тестю все))) структура через жопу имхо) куча скриптов, меню в кеше... в общем отличная лабораторная мышка)))) Просто если получится, то пожалуй, действительно есть смысл задуматься о приобретении этого парсера.
 
a-parser :cq:
форбидден чувак с большой буквы)
правда никогда не собирал им списки страниц. но поисковики парсит просто офигенно. лучше парсера нет.
 
Раз такой оффтоп... Может кто подскажет, какой паук умеет собирать ссылки с сайта, включая все его поддомены?
 
КД)))) если настроить)
 
Доброе утро, друзья )

Подскажите как можно реализовать парсинг всех страниц в интернете? Или хотя бы всех страниц определенного сайта, указав только один url адрес?


sitemap.xml
берешь базу доменов и дергаешь гетом host.com/sitemap.xml

структура одинаковая у всех sitemap.xml
распарсить xml проблем нет.
XPath в помощь.
 
Последнее редактирование:
  • Спасибо
Реакции: Aleksandr
Одна беда... есть еще sitemap.txt и никогда не знаешь насколько корректен сайтмап в xml, по этому же адресу он лежит, так ли называется, и существует ли вообще)
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)