ADblok в Zennoposter. Или как избавиться от рекламы в зенке

bezvozni

Client
Регистрация
31.03.2013
Сообщения
306
Благодарностей
29
Баллы
28
Ну собственно вопрос в теме.
Как минимум нужно игнорировать рекламу при взятии данных для парсинга регулярками.
 

LexxWork

Client
Регистрация
31.10.2013
Сообщения
1 190
Благодарностей
788
Баллы
113
парсите через запрос - не проще, но быстрей.
 
  • Спасибо
Реакции: bezvozni

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 114
Баллы
113
Ну собственно вопрос в теме.
Как минимум нужно игнорировать рекламу при взятии данных для парсинга регулярками.
Отключите выполнение Javascript, если конечно оттуда ничего не парсите. Ну и, естественно, отключите картинки, стили и т.д.
А вообще, парсинг лучше осуществлять через GET запрос.
 
  • Спасибо
Реакции: bezvozni

bezvozni

Client
Регистрация
31.03.2013
Сообщения
306
Благодарностей
29
Баллы
28
парсите через запрос - не проще, но быстрей.
А вообще, парсинг лучше осуществлять через GET запрос.
Я так понимаю, вы оба про одно и то же. Попробовал.

Беру экшен для гет-запроса. Ставлю в URL прямую ссылку на страницу (остальное оставляю по умолчанию), которую собираюсь парсить и получаю на выходе нечто. Это нечто и есть то самое содержимое, которое можно парсить?

Подозреваю, что нет потому что "не проще, но быстрей"))

В чем подвох? Что я не так делаю?
 

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 114
Баллы
113
Беру экшен для гет-запроса. Ставлю в URL прямую ссылку на страницу (остальное оставляю по умолчанию), которую собираюсь парсить и получаю на выходе нечто. Это нечто и есть то самое содержимое, которое можно парсить?
Верно! "Нечто" (Код страницы) - это то, откуда нужно парсить то что вам нужно.
Т.е. после экшена "GET запрос" нужно поставить экшен "Обработка текста - Regex". И в нем указываете переменную, в которую сохраняли результат после запроса, и вашу регулярку.
 
  • Спасибо
Реакции: bezvozni

bezvozni

Client
Регистрация
31.03.2013
Сообщения
306
Благодарностей
29
Баллы
28
Т.е. после экшена "GET запрос" нужно поставить экшен "Обработка текста - Regex". И в нем указываете переменную, в которую сохраняли результат после запроса, и вашу регулярку.
Ну это, я то как раз догадался))

Верно! "Нечто" (Код страницы) - это то, откуда нужно парсить то что вам нужно.
Не мог поверить, что всё так просто))

Ввело в заблуждение))

Спасибо.
 

LexxWork

Client
Регистрация
31.10.2013
Сообщения
1 190
Благодарностей
788
Баллы
113
непросто когда нужный переход произодит по токенам или кукам. так что да, здесь просто.
 
  • Спасибо
Реакции: Dimionix

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 114
Баллы
113
непросто когда нужный переход произодит по токенам или кукам. так что да, здесь просто.
Верно!
Не мог поверить, что всё так просто))
И еще, если шаблон построен только на запросах (без использования браузера), то в настройках шаблона поставьте галочку "Не использовать браузер" - шаблон будет меньше "кушать" ресурсов компьютера. Ну это так, мало ли не знаете:-)
 

LexxWork

Client
Регистрация
31.10.2013
Сообщения
1 190
Благодарностей
788
Баллы
113
еще как меньше!
 

Кто просматривает тему: (Всего: 3, Пользователи: 0, Гости: 3)