Местами не срабатывает парсинг

Phoenix78 · 16.12.2019

у яндекса есть рекламные и не рекламные записи
смотри структуру всего документа в браузере в консоле.
лучше работать с xpath

Phoenix78 · 16.12.2019

tiptopvkr сказал(а):
Это понятно. Но мой пример в выдаче не рекламный. Рекламные всегда начинаются на "yabs"

там корона стоит. скорее всего немного по другому структура там.
кинь сюда полную поисковую ссылку

Phoenix78 · 16.12.2019

//*/li[@class='serp-item']/div//div[contains(@class,'organic__path')]/a[2]
попробуй этот xpath

Phoenix78 · 16.12.2019

да норм , можешь пользоваться :-)

Phoenix78 · 16.12.2019

tiptopvkr сказал(а):
Тот же результат

как это тот же? вон выше я же приложил скрин. находит все что надо

Phoenix78 · 16.12.2019

вот в зенке перешел по ссылке что скинули.

Phoenix78 · 16.12.2019

у меня такой записи нет. может у вас отключено что то ? я пробовал на нулевом проекте на файрфоксе со всеми включенными загрузками, флеш, скрипты , фреймы и тд.

Phoenix78 · 21.12.2019

tiptopvkr сказал(а):
Только что наткнулся на одну проблемку и решил ее. Пригодится тому кто будет применять

//*/li[@class='serp-item']/div//div[contains(@class,'organic__path')]/a[2] эта строка не справляется с адресами некоторыми у которых второй уровень вложенности. И у которых в выдаче под тайтлом кириллический адрес а не латиницей.

И я добавил второй кубик похожий на первый но с одним изменением //*/li[@class='serp-item']/div//div[contains(@class,'organic__path')]/a[3] - в конце не 2 а 3 поставил и он допарсивает верный адрес.

Посмотреть вложение 47042
Вот когда такие адреса
Первая строчка вытягивает такой урл: https://домен/articles
Вторая: https://домен/articles/septiki-dlya-dachi-chto-eto-i-kak-vybrat-podkhodyashchuyu-model/
Но вторая не вытягивет всего того что в первой потому я ставил 2 кубика и они друг друга дополняют и допарсивают не дублируя

а полный Url на самом деле лежит в соседней дочке :-)

вот здесь

я себе сделал так.
ищу по //*/li[@class='serp-item']/div//div[contains(@class,'organic__path')]/a/b
выбираю нужный мне элемент и 4 раза подымаюсь по родителям с помощью .ParentElement;
а потом делаю .FindChildByTag("h2",0);
и кликаю уже по заголовку. а если для парсинга то там же и полный URL лежит :-)

Phoenix78 · 21.12.2019

tiptopvkr сказал(а):
Я из вышенаписаного половину не понял (начиная со слова "выбираю)")) Новичок я еще) Но попробую разобраться в процессе.

https://zennolab.com/discussion/threads/klik-po-sluchajnomu-rezultatu-vydachi.70871/post-485625 просто шикарный ответ.

Поиск

Местами не срабатывает парсинг

tiptopvkr

Client

Phoenix78

Client

tiptopvkr

Client

Phoenix78

Client

Phoenix78

Client

Phoenix78

Client

tiptopvkr

Client

Phoenix78

Client

Phoenix78

Client

tiptopvkr

Client

Phoenix78

Client

tiptopvkr

Client

tiptopvkr

Client

Phoenix78

Client

tiptopvkr

Client

Phoenix78

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)