4 место [Обзор]ZennoPoster + xPath на примере Яндекс.Маркета

amyboose · 16.05.2017

Батя в здании 8-)

Расписано круто, автору респект

Juniorcpa · 16.05.2017

Голосовать буду за Вас :-)

Tritatushki · 16.05.2017

Прекрасное оформление статьи, ставлю нраица :-)

Astraport · 16.05.2017

Я уж думал что в Зенно появилась удобная тулза для работы с Xpath.

Sz5 сказал(а):
/html/body/div[1]/div[4]/div[2]/div[1]/div[2]/div[1]/div[1]/div[3]/div/div[1]/div/h3/a/span

Вот так примерно выглядит работа с FB.

samsonnn · 16.05.2017

Неплохо, спасибо автор)

Geograph · 16.05.2017

Хорошая статья

Sz5 сказал(а):
XPath — это язык запросов к элементам html документа

На самом деле XPath - это язык запросов к элементам XML-документа о чем сообщает первая буква X. И это вносит свои коррективы - если HTML невалидный, что чаще всего и бывает (не закрытый тег, нет парного тега, не экранирован спецсимвол и т.п.), то чистый XPath вылетит с ошибкой - поэтому, сначала правится HTML и приводится к нормальному XML-виду (так работает большинство компонентов, например HtmlAgilityPack).

Стандартная панель разработчика в движке Chromium (по F12) тоже умеет искать по XPath и по CssQuery. В чём преимущества компонента XPather?

seomiks · 16.05.2017

Возможно я скудоумный, мне регулярками проще.

Geograph · 16.05.2017

seomiks сказал(а):
Возможно я скудоумный, мне регулярками проще.

Малейшее изменение страницы (добавление пробела, изменение названия класса) и регулярка отвалится, XPath более надежён в этом смысле.

P.S. Почему не надо парсить HTML регулярками: http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?tab=votes#tab-top :-)

sergej_g · 16.05.2017

Спасибо за статью и старания. Мат лучше убрать...Мешает восприятию.

stanar · 16.05.2017

Однозначно статья имеет место быть. Плюсую и мой голос.

Lord_Alfred · 16.05.2017

Sz5 сказал(а):
starts-with(starts-with(@class, 'имя_класса')) - возвращает true если первая строка начинается со второй, иначе возвращает false.

Тут скорее всего опечатка, два раза starts-with

Sz5 сказал(а):
// - Две косые черты, просто запоминанием, что все начинается с них

Думаю, стоит ещё рассказать о том, что если мы ищем по xpath внутри другого HtmlElement элемента, то нужно использовать:

Код:

*//

Пример (найти первую форму и в ней кнопку сабмит):

Код:

HtmlElement he_form = instance.ActiveTab.FindElementByXPath(".//form", 0);
HtmlElement he_submit = he_form.FindChildByXPath("*//input[@type='submit']", 0);

Одна картинка после длиннющего плохого xpath - битая.
ЗЫ: картинки нужно залить на сервера зеннолаба, кста.

PS: статья очень понравилась, буду голосовать за неё) Стиль оформления и текст улыбнули) Понимаю, что некоторые вещи могут быть неприемлимы, но тут они крайне уместны. Особенно с поиском через Батю - прям гениальное сравнение!

Lord_Alfred · 16.05.2017

Geograph сказал(а):
Стандартная панель разработчика в движке Chromium (по F12) тоже умеет искать по XPath и по CssQuery. В чём преимущества компонента XPather?

А ещё в Chrome можно искать через консоль JS используя:

Код:

$x("тут_xpath")

Тоже очень удобно, я юзаю именно так :-)

stanar · 16.05.2017

Я бы добавил поиск по Xpath без браузера при работе на post get запросах, в разы ускоряет. Но и так отлично, когда разбирался с ним - потратил много времени на поиск информации. На форуме 5 полезных постов.

lzlmrf · 16.05.2017

статья заебз 8-)

Понятно что искать по постоянным элементам , и которые не меняются - это вы для ознакомления привели так сказать с темой. И что вы и Xpath можете много больше.. а можно попросить разобрать другой пример? дапустим https://plus.google.com/collection/cU7oBB?hl=ru получить описание к картинкам и сами картинки ?

Lord_Alfred · 16.05.2017

lzlmrf сказал(а):
а можно попросить разобрать другой пример? дапустим https://plus.google.com/collection/cU7oBB?hl=ru получить описание к картинкам и сами картинки ?

Не знаю как в гуглоплюсе генерируются пути к картинкам, но скорее всего лучше отталкиваться от такой логики: ищем img, где в содержимом src (через contains) есть "googleusercontent.com/proxy/".
А описания соответственно через "соседние" к этому элементы получать.

Да, бывает что встречаются сайты, где классы у тегов генерируются автоматически или меняются при малейшем изменении верстки (например, из-за использования минификаторов css), но почти всегда можно оттолкнуться от каких-то других элементов. Например, даже использовать "text()" для получения содержимого (то что внутри тега) и сравнивать этот текст.

Но бывают ситуации, что и такие способы не спасают. Поэтому для каждого подхода должны быть свои инструменты и важно понимать и знать где и как их применять.
Лепить везде регулярки - бред. Лепить везде xpath - бред. Комбинировать эти способы - гораздо лучше.

Geograph · 16.05.2017

lzlmrf сказал(а):
а можно попросить разобрать другой пример? дапустим https://plus.google.com/collection/cU7oBB?hl=ru получить описание к картинкам и сами картинки ?

Картинки:

Код:

//img[contains(@src, 'googleusercontent') and @alt != '' and @width > 100]

Описание:

Код:

//div[@dir='ltr']

lzlmrf · 16.05.2017

Lord_Alfred сказал(а):
ищем img, где в содержимом src (через contains) есть "googleusercontent.com/proxy/".

не пойдет - это только на загруженых с сайтов(с сылками).

Lord_Alfred сказал(а):
А описания соответственно через "соседние" к этому элементы получать.

звучит красиво - но можно пример ? и желательно от ТС .

amyboose · 16.05.2017

Есть предположения из неподтвержденных источников, что в htmlagilitypack идет утечка памяти, но обоснований этому у меня нет, как и опровержений.

Sanekk · 16.05.2017

тоже очень понравилась статья,закреплю в закладках, буду обращаться по случаю как к мини мануалу)
ТС где вы были на прошлом конкурсе статей) зимой как раз плотно изучал xpath в том числе и по нескольким постам на форуме!
мой голос за статью полюбому)

seodima · 17.05.2017

Спасибо за статью. Я занимаюсь по большей части парсингом. Поэтому мне особо актуально. Я вообще регулярками обходился. Но за альтернативное решение - огромное спасибо. Голосовать буду, скорее всего, за Вас. Удачи.

lzlmrf · 17.05.2017

Sz5 сказал(а):
Активируем xPather в появившемся окне набираем наш "первый" xPath запрос -

вы прям сразу набираете запрос..а почему именно его? как пришли к такому решению? Плагин только показывает то что набрали - поиска или выделения блока нет (или я не нашел)

sydoow · 17.05.2017

Статья полезная, спасибо :-)

Вот бы мне раньше её до того как сам изучил))

sydoow · 17.05.2017

Кстате, вот ещё приведу запросы которые я ещё использую:

not - не содержит
примеры:
//a[not (@href)] - поиск всех элементов с тегом "а", у которых нет атрибута "href"
//label[not(@for='login')] - поиск всех элементов с тегом "label", у которых нет атрибута "for" со значением "login"

text() - InnerText
примеры
//span[text()='лалала'] - поиск всех элементов с тегом "span", у которых есть текст "лалала"
//a[contains(text(),"Удаленные")] - поиск всех элементов с тегом "a", которые содержат текст "Удаленные"

and - дополнительное условие
пример:
//*[@id='owner_photo_edit' and not(@style='display: none;')]

Tnyrtin · 18.05.2017

Спасибо за статью. Возникло пару вопросов по шаблону (http://joxi.ru/xAeBY5kt3zN8ry)
Главный вопрос как сохранить все элементы в переменую/список/таблицу?
Если на странице 100 найденных элементов - блоков(и каждый разбивается как у вас на "имя товара, описание, количество отзывов и т.д."), как сделать так чтобы эти элементы ложилось куда то(список, таблица, переменая).

4 место [Обзор]ZennoPoster + xPath на примере Яндекс.Маркета

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Вложения

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)