Парсинг сайтов get-запросами

Greez

Client
Регистрация
05.02.2014
Сообщения
85
Благодарностей
30
Баллы
18
Месяц писал для себя парсер сайтов по нужным критериям и вот "открыл" что есть get-запросы которые берут исходный код. Вроде получается гораздо эргономичнее чем загружать все сайты в браузере (пусть и с выкл. картинками и т.д.). Вопрос про кодировку и в целом целесообразность, кто-нибудь парсит get-запросами? Выставлять utf-8?
 

KirillOFF

Client
Регистрация
18.12.2010
Сообщения
1 127
Благодарностей
517
Баллы
113
Парсить сайты с помощью ZP, пусть даже и GET-запросами - слишком круто. Используйте Content Downloader.
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
Плюшка зеннопостера в эмуляции браузера и работы с ним, а тупо надергать кодов страницы....
Да кстати))) учтите что гет-запросом никакие подгрузки на страницу не осуществляются)))
т.е. есть вероятность получить страничку, которая обращается к 30 яваскриптам и без нужного контента))))
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 715
Баллы
113
Да, сейчас даже если проект не содержит навигейта на страницу сайта, все равно инстанс загружает все данные для работы с браузером) А это уже другой уровень необходимых ресурсов)
Проспойлерю: будет возможность скоро работы проектов без браузера 8-)
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
Эх... еще бы пиво открывала.....

т.е... мы можем получить адаптивный скоростной парсер не уступающий КД по скорости работы верно? ну и по ходу дела обработчик фаилов внутри компа) хотя там вес подгруженного браузера не много значит, но время отнимает) а у меня нынче добрая треть проектов фаилы перекладывает))))
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)