Парсинг выдачи

tiptopvkr

Client
Регистрация
26.09.2019
Сообщения
189
Благодарностей
14
Баллы
18
Привет всем. Мне нужно сделать парсер выдачи Яши по первой странице. Заблудился походу в самом начале проекта.

Какие вопросы не понятны
1) Как заставить понять программу что это рекламный блок и не добавлять его в список
2) Как добавить в исключения вообще что-то (картинки, услуги и т.п.)
3) Как сказать программе брать только 10 ссылок например если столько есть на странице. Выдача может быть перегружена сервисами и рекламой и чистой органики там 10 попросту может и не быть.
4) Как взять ссылку из выдачи? Я пробовал открывая вкладку браузера но не понял как оттуда вытянуть ссылку которая открылась.

буду очень благодарен за помощь.
 

tiptopvkr

Client
Регистрация
26.09.2019
Сообщения
189
Благодарностей
14
Баллы
18
Вопрос решил случайно наткнувшись на тему где есть скрин парсера данных) В любом случае спасибо кто хотел помочь но не успел)
45188

Выдало точно то что нужно)

Но все же остался вопрос - как фильтровать несколько результатов. Чтобы удалить yabs - рекламу и yandex из списка а не что-то одно?
 
  • Спасибо
Реакции: Sergodjan

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 072
Благодарностей
8 959
Баллы
113
Но все же остался вопрос - как фильтровать несколько результатов. Чтобы удалить yabs - рекламу и yandex из списка а не что-то одно?
Можно отбросить ненужные данные таким образом например:
(по текстовому критерию, либо с помощью рег-выражения)

45189
 
  • Спасибо
Реакции: tiptopvkr

ibred

Client
Регистрация
04.04.2015
Сообщения
3 835
Благодарностей
3 551
Баллы
113
  • Спасибо
Реакции: tiptopvkr и Sergodjan

tiptopvkr

Client
Регистрация
26.09.2019
Сообщения
189
Благодарностей
14
Баллы
18
Можно отбросить ненужные данные таким образом например:
(по текстовому критерию, либо с помощью рег-выражения)

Посмотреть вложение 45189
У меня точно так же получается но все равно остаются строки типа http://yandex.ru/clck/jsredir которые не удаляются по этому условию (у вас тоже есть на скрине). Ведь в условии только одно что-то можно удалить. А удалить и yabs и yandex не знаю как
 

tiptopvkr

Client
Регистрация
26.09.2019
Сообщения
189
Благодарностей
14
Баллы
18
В разделе бесплатных шаблонов Вы можете скачать бесплатно:
Вам большое спасибо за помощь (обязательно присылайте еще если есть)) но я хочу сам разобраться.
Поясню -
1) Денег на покупку платных шаблонов у меня нет ибо задач великое множество.
2) Изучать и разбирать что-то новое для меня наркотик) А Зеннопостер для меня совершенно новое направление)
3) Почему не пользуюсь бесплатными? - На самом деле пользуюсь но только чтобы изучить как все устроено. В них зачастую есть далеко не все что мне нужно в конкретной задаче.
Для примера регистратор почт на Яндексе - толковый шаблон но я к нему еще 2 дописывал чтобы получить необходимый результат)
 

ibred

Client
Регистрация
04.04.2015
Сообщения
3 835
Благодарностей
3 551
Баллы
113
1) Денег на покупку платных шаблонов у меня нет ибо задач великое множество.
Они бесплатные

но я хочу сам разобраться
Изучать и разбирать что-то новое для меня наркотик) А Зеннопостер для меня совершенно новое направление)
Данные шаблоны открыты для редактирования. Изучите уже готовый проект изнутри, так будет проще и быстрее.
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 072
Благодарностей
8 959
Баллы
113
У меня точно так же получается но все равно остаются строки типа http://yandex.ru/clck/jsredir которые не удаляются по этому условию (у вас тоже есть на скрине). Ведь в условии только одно что-то можно удалить. А удалить и yabs и yandex не знаю как
В данном случае можно критерий фильтра сделать шире, как бы:

45190
 
  • Спасибо
Реакции: tiptopvkr

tiptopvkr

Client
Регистрация
26.09.2019
Сообщения
189
Благодарностей
14
Баллы
18
Вот туплю капец) Точно же можно просто весь яндекс грохнуть и все) Спасибо большое за помощь)
 
  • Спасибо
Реакции: Sergodjan

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)