Как реализовать парсиг всех страниц в интернете?

Aleksandr

Client
Регистрация
04.01.2014
Сообщения
206
Благодарностей
113
Баллы
43
Доброе утро, друзья )

Подскажите как можно реализовать парсинг всех страниц в интернете? Или хотя бы всех страниц определенного сайта, указав только один url адрес?
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
Ага))) таки тебя краулер интересует?))))
Есть миллион и маленькая тележка решений.
Xenu
Netpeak Spider
встроенный спайдер в контент даунлодер
Это те, которые я могу порекомендовать)))
Но на крупных сайтах - там где количество страниц более 200-300 тыс - они начинают спотыкаться и вылетают)) я сейчас в ленивом написании краулера на sql базе)))
 
  • Спасибо
Реакции: Aleksandr

Max

Client
Регистрация
17.06.2012
Сообщения
168
Благодарностей
44
Баллы
28
Ищешь все теги href по регулярке , затем фигачишь в список. Далее переходишь по ним опять ищешь теги. Удаляешь дубли и добавляешь в список. И так по кругу. До тех пока парсинг страницы не будет возвращать 0 ссылок.
 

silent

Client
Регистрация
05.04.2014
Сообщения
237
Благодарностей
85
Баллы
28
a-parser вполне без проблем справляется, хотя при 100 лямов линков начинал подтупливать если делать уник :-)
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
Сдается мне а парсер, как и КД предоставит мне только списочек страниц, на которые он нашел ссылки... ну тоже хлеб, но хотелось бы все таки получить итоговый внутренний граф)))
Если вас не затруднит - просто ради эксперимента попробуйте просканировать целиком news.sportbox.ru я на нем тестю все))) структура через жопу имхо) куча скриптов, меню в кеше... в общем отличная лабораторная мышка)))) Просто если получится, то пожалуй, действительно есть смысл задуматься о приобретении этого парсера.
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 714
Баллы
113
a-parser :cq:
форбидден чувак с большой буквы)
правда никогда не собирал им списки страниц. но поисковики парсит просто офигенно. лучше парсера нет.
 

KirillOFF

Client
Регистрация
18.12.2010
Сообщения
1 127
Благодарностей
517
Баллы
113
Раз такой оффтоп... Может кто подскажет, какой паук умеет собирать ссылки с сайта, включая все его поддомены?
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
КД)))) если настроить)
 

7make

Client
Регистрация
25.06.2011
Сообщения
1 547
Благодарностей
1 311
Баллы
113

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с 7make какие-либо сделки.

Доброе утро, друзья )

Подскажите как можно реализовать парсинг всех страниц в интернете? Или хотя бы всех страниц определенного сайта, указав только один url адрес?

sitemap.xml
берешь базу доменов и дергаешь гетом host.com/sitemap.xml

структура одинаковая у всех sitemap.xml
распарсить xml проблем нет.
XPath в помощь.
 
Последнее редактирование:
  • Спасибо
Реакции: Aleksandr

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
Одна беда... есть еще sitemap.txt и никогда не знаешь насколько корректен сайтмап в xml, по этому же адресу он лежит, так ли называется, и существует ли вообще)
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)