Использование xpath на чистом html

z@jivalo · 10.08.2017

Облазил довольно много форумов но вот что-то не нашел, как мне использовать
прекраснейший xpath без загрузки страницы или DOM, а из чистого html который находится в переменной.

Ну вот пример: сделал я GET запрос на http://lessons.zennolab.com/captchas/
результат попал в переменную и вот как теперь обратиться к этой переменной через xpath и что-то от туда вытащить.

Во всех примерах только требуется instance.ActiveTab.FindElementByXPath но это не то.

z@jivalo · 10.08.2017

Можно и регулярками но я думаю что регулярка может ошибиться и взять не нужное.
вот пример кода.

Тут привязаться сложно так как id и name не уникальный они могут так же меняться

Код:

<div class="code_sum">
<table width="100%" id="codes_table0" border="0" cellpadding="2" cellspacing="2" class="new_table2">
    <tr>
    <td colspan="2" class="big_text">Скопируйте код </td>
    </tr>
<tr>
<td width="50%"><b>BBCODE для форумов</b>, превью </td>
<td width="53%"><input name="c12" type="text" class="code_inputs" id="c12" onClick="this.select();" value="[URL=http://fotosite.ru/12840076/658972/][IMG]http://fotosite.ru/allimage/2017/8-10/img_thumb/658972-thumb.jpeg[/IMG][/URL]"></td>
</tr>
<tr>
<td><b>BBCODE для форумов</b>, полная картинка </td> </td>
<td><input name="c13" type="text" class="code_inputs" id="c13" onClick="this.select();" value="[URL=http://fotosite.ru/12840076/658972/][IMG]http://fotosite.ru/allimage/2017/8-10/img_full/658972.jpeg[/IMG][/URL]"></td>
</tr>
<tr>
<td><b>HTML превью</b></td>
<td><input name="c14" type="text" class="code_inputs" id="c14" onClick="this.select();" value="&lt;a href=&quot;http://fotosite.ru/12840076/658972/&quot; target=&quot;_blank&quot;&gt;&lt;img src=&quot;http://fotosite.ru/allimage/2017/8-10/img_thumb/658972-thumb.jpeg&quot;&gt;&lt;/a&gt;"></td>
</tr>
<tr>
<td><b>HTML полная картинка</b></td>
<td><input name="c15" type="text" class="code_inputs" id="c15" onClick="this.select();" value="&lt;a href=&quot;http://fotosite.ru/12840076/658972/&quot; target=&quot;_blank&quot;&gt;&lt;img src=&quot;http://fotosite.ru/allimage/2017/8-10/img_full/658972.jpeg&quot;&gt;&lt;/a&gt;"></td>
</tr>
<tr>
<td><b>Прямая ссылка</b></td>
<td><input name="c1" type="text" class="code_inputs" id="c1" onClick="this.select();" value="http://fotosite.ru/12840076/658972/"></td>

Надо вытащить значения атрибутов value

Aleksk · 10.08.2017

Код:

// переменная x с html кодом после гет запроса
var x = project.Variables["dom"].Value;

instance.ActiveTab.MainDocument.Body.SetAttribute("innerHtml", x);

Troll_UA · 10.08.2017

z@jivalo написал(а):
Облазил довольно много форумов но вот что-то не нашел, как мне использовать
прекраснейший xpath без загрузки страницы или DOM, а из чистого html который находится в переменной.

Ну вот пример: сделал я GET запрос на http://lessons.zennolab.com/captchas/
результат попал в переменную и вот как теперь обратиться к этой переменной через xpath и что-то от туда вытащить.

Во всех примерах только требуется instance.ActiveTab.FindElementByXPath но это не то.

Можно использовать библиотеку Html Agility Pack. А вот пример реализации сниппета.

z@jivalo · 10.08.2017

Troll_UA написал(а):
Можно использовать библиотеку

Попробую может подойдет

z@jivalo · 10.08.2017

szechwalkeyka1978 написал(а):
Да блин я отправляю он норм , а потом меняется

не работает ваша регулярка, надо все значения вытащить из value без кавычек.

Aleksk · 10.08.2017

Берем код html который находится в переменной допустим х,
устанавливаем его в активную вкладку - instance.ActiveTab.MainDocument.Body.SetAttribute("innerHtml", x);
Дальше работаем как с обычной страницей через методы instance.ActiveTab.FindElementByXPath

z@jivalo · 10.08.2017

Aleksk написал(а):
альше работаем как с обычной страницей

этот вариант думаю и буду использовать, просто хотелось не запускать браузер с экономить важные секунды во время выполнения шаблона

так понимаю, данный способ не делает обращения к сайту?
он просто запускает исходный html код ?

Aleksk · 10.08.2017

z@jivalo написал(а):
этот вариант думаю и буду использовать, просто хотелось не запускать браузер с экономить важные секунды во время выполнения шаблона

так понимаю, данный способ не делает обращения к сайту?
он просто запускает исходный html код ?

Вы работаете с html кодом с гет запроса, никаких запросов к сайту нет и секундных задержек также нет

z@jivalo · 10.08.2017

szechwalkeyka1978 написал(а):
Чуть чуть поторопился со второй img

Код:

(?<=value="\[URL=).*?(?=])

получить значение из атрибута value это значить получить все что находится внутри
Вот что надо получить, что находиться в кавычках, при условии что тег input имеет name="c1" который меняется

Код:

value="[URL=http://fotosite.ru/12840076/658972/][IMG]http://fotosite.ru/allimage/2017/8-10/img_thumb/658972-thumb.jpeg[/IMG][/URL]"

z@jivalo · 10.08.2017

szechwalkeyka1978 написал(а):
Код:

(?<=value=").*?(?=")

Вы меня не слышите, я ведь написал выше что есть условия где должна работать регулярка.

sydoow · 11.08.2017

Вот здесь ещё по теме http://zennolab.com/discussion/threads/preobrazovat-rezultat-get-v-dom.36209/

doc · 11.08.2017

Aleksk написал(а):
Вы работаете с html кодом с гет запроса, никаких запросов к сайту нет и секундных задержек также нет

запросов к сайту нет, вот только для работы с инстансом, если я не ошибаюсь, должен быть включён браузер. А скорость работы и ресурсозатраты браузерного и безбраузерного проекта очень сильно отличаются

Вообще, Я немного отстал от обнов, но кажется в какой-то из версий вшивали библиотеку хтмл агилити пак

z@jivalo · 11.08.2017

doc написал(а):
запросов к сайту нет, вот только для работы с инстансом, если я не ошибаюсь, должен быть включён браузер. А скорость работы и ресурсозатраты браузерного и безбраузерного проекта очень сильно отличаются

вот именно что ресурсы поджирать будет, я и хотел в будущем использовать чистый html +xpath может не много regex
по поводу либы пацаны пишут что она уже давно в off ушла в плане разработки баги многолетней давности не фиксять и бывает так что сыплется

orka13 · 11.08.2017

Изучал чистый xpath (HtmlAgilityPack, без использования браузера для POST\GET запросов) последний месяц под свои нужды. Очень часто в новичков на форуме проблемы с его подключением. Так что вот пример шаблона с подключенными библиотеками, СКАЧАТЬ ПРИМЕР.
Основной код из шаблона:

C#:

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument(); // создание объекта
var template_html = project.Variables["Htnl_Code"].Value; // грузим наш код
// условие xpath, если надо найти все элементы с value, где тег input имеет name='c1':
var var_xpath1 = @"//*[@value and @name='c1']";
// или условие xpath, если надо найти просто все элементы с value:
// var var_xpath1 = @"//*[@value]";
string temp = "";
string result = "";

doc.LoadHtml(template_html); // грузим DOM текст (из переменной template_html) в объект doc

// получаем список, с которым будем работать (в шаблоне должен уже быть пустой список List1_Urls)
var sourceList = project.Lists["List1_Urls"];

var Nodes_list_1 = doc.DocumentNode.SelectNodes(var_xpath1); //  получаем список элементов по условию var_xpath1
if (Nodes_list_1 != null) //  обязательно надо делать проверку "не пустой ли результат"
{
foreach (var res in Nodes_list_1) //  начинаем цикл
    {
          temp = res.GetAttributeValue("value", ""); //  получаем значение value каждого элемента
        result += temp + "\r\n"; //  добавляем его в переменную, каждое значение с новой строки
        sourceList.Add(temp); //  и добавляем его в список (кому как удобнее)
  
    }  
}
return result;

Шаблон работает с использованием Html Agility Pack (.NET парсер HTML).
Поэтому для его работы надо закинуть содержимое папки "ExternalAssemblies" в аналогическую папку ZennoPoster, пример у меня:
c:\Program Files (x86)\ZennoLab\RU\ZennoPoster Pro\5.11.5.0\Progs\ExternalAssemblies\
Ети файлы я тестировал на своем «Windows 10». Они взяты из файла «HtmlAgilityPack.1.5.1\lib\Net45\» (под .NET Framework 4.5). Все актуальные версии файлов можно посмотреть на сайте разработчиков: https://www.nuget.org/packages/HtmlAgilityPack/1.5.1 . Они там правда распаковываются через их консольную утилиту.
Если с этими файлами шаблон не запускается без ошибок, значит чего-то не хватает, и надо разбираться.

Почти все нюансы работы с HtmlAgilityPack разбирались на форуме. Я вот себе в закладки добавил самые важные ссылки из сети:
http://zennolab.com/discussion/threads/problema-s-parsingom-v-amazon.32660/
http://citforum.ru/internet/xpath/xpath.shtml
http://kronus.me/2011/04/введение-в-xpath-на-примере-простого-парсе/
https://docs.google.com/document/d/1PdfKMDfoqFIlF4tN1jKrOf1iZ1rqESy2xVMIj3uuV3g/pub#h.pazner1ml919
http://onedev.net/post/458
http://html-agility-pack.net/api
https://stackoverflow.com/questions/5801828/html-agility-pack-null-reference

z@jivalo · 11.08.2017

orka13 написал(а):
Изучал чистый xpath

ооо отличное, благодарю много всего нужного

iBotovod · 17.03.2018

Туториал по HAP
http://html-agility-pack.net/api

up_lvl · 10.04.2018

Помогите плз с htmlagility, сейчас голова взорвётся

Есть тело поста с вложенным в него репостом, но оба имеют одинаковый div с class="story_body"

Необходимо выбрать узел минуя вложенный div[@class=\"story_body\"], то есть выбрать сам головной пост без вложенного репоста чтоб в результате в переменной было то что зеленым выделено на скрине (см. внутри архива).

Moadip · 10.04.2018

Можно сделать вот так. Т.е. будет браться только верхний узел post_body.
Но выбрать только верхний узел post_body, чтобы не брался внутренний, так не получится. Т.к. при выборе узла, берется все что внутри него.

Если нужен именно верхний узел, и надо чтобы внутреннего не было, то тут тогда только один вариант, берется весь узел, а потом внутри него удаляется post_body.

up_lvl · 10.04.2018

Понял, спасибо. Ещё я поковырялся и думаю пилить логику от присутствия/отсутствия репоста
"//div[@class=\"story_body\"]/descendant::div[@class=\"story_body\"]"

А вообще у меня в похожем кейсе помогло это решение:
https://www.experts-exchange.com/qu...t-top-level-tables-using-HtmlAgilityPack.html
Там ответ с //table[not(ancestor::table)]

Но в этом случае с репостом наверно всё же вёрстка и вложенность отличается, ибо не работает, хотя я так и не понял в чём разница.

nik-n · 29.11.2021

orka13 написал(а):
Изучал чистый xpath (HtmlAgilityPack, без использования браузера для POST\GET запросов) последний месяц под свои нужды. Очень часто в новичков на форуме проблемы с его подключением. Так что вот пример шаблона с подключенными библиотеками, СКАЧАТЬ ПРИМЕР.
Основной код из шаблона:

C#:

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument(); // создание объекта var template_html = project.Variables["Htnl_Code"].Value; // грузим наш код // условие xpath, если надо найти все элементы с value, где тег input имеет name='c1': var var_xpath1 = @"//*[@value and @name='c1']"; // или условие xpath, если надо найти просто все элементы с value: // var var_xpath1 = @"//*[@value]"; string temp = ""; string result = ""; doc.LoadHtml(template_html); // грузим DOM текст (из переменной template_html) в объект doc // получаем список, с которым будем работать (в шаблоне должен уже быть пустой список List1_Urls) var sourceList = project.Lists["List1_Urls"]; var Nodes_list_1 = doc.DocumentNode.SelectNodes(var_xpath1); // получаем список элементов по условию var_xpath1 if (Nodes_list_1 != null) // обязательно надо делать проверку "не пустой ли результат" { foreach (var res in Nodes_list_1) // начинаем цикл { temp = res.GetAttributeValue("value", ""); // получаем значение value каждого элемента result += temp + "\r\n"; // добавляем его в переменную, каждое значение с новой строки sourceList.Add(temp); // и добавляем его в список (кому как удобнее) } } return result;

Шаблон работает с использованием Html Agility Pack (.NET парсер HTML).
Поэтому для его работы надо закинуть содержимое папки "ExternalAssemblies" в аналогическую папку ZennoPoster, пример у меня:
c:\Program Files (x86)\ZennoLab\RU\ZennoPoster Pro\5.11.5.0\Progs\ExternalAssemblies\
Ети файлы я тестировал на своем «Windows 10». Они взяты из файла «HtmlAgilityPack.1.5.1\lib\Net45\» (под .NET Framework 4.5). Все актуальные версии файлов можно посмотреть на сайте разработчиков: https://www.nuget.org/packages/HtmlAgilityPack/1.5.1 . Они там правда распаковываются через их консольную утилиту.
Если с этими файлами шаблон не запускается без ошибок, значит чего-то не хватает, и надо разбираться.

Почти все нюансы работы с HtmlAgilityPack разбирались на форуме. Я вот себе в закладки добавил самые важные ссылки из сети:
http://zennolab.com/discussion/threads/problema-s-parsingom-v-amazon.32660/
http://citforum.ru/internet/xpath/xpath.shtml
http://kronus.me/2011/04/введение-в-xpath-на-примере-простого-парсе/
https://docs.google.com/document/d/1PdfKMDfoqFIlF4tN1jKrOf1iZ1rqESy2xVMIj3uuV3g/pub#h.pazner1ml919
http://onedev.net/post/458
http://html-agility-pack.net/api
https://stackoverflow.com/questions/5801828/html-agility-pack-null-reference

сделал по примеру, затрахался уже голову ломать что не так.
достает одну пустую строку и все.

orka13 · 29.11.2021

nik-n написал(а):
сделал по примеру, затрахался уже голову ломать что не так.
достает одну пустую строку и все.

1. гуглим HtmlAgilityPack innerhtml
2. видим что там вовсе не так InnerHtml парсится как у вас, а так:

InnerHtml Property in Html Agility Pack (HAP)

Learn InnerHtml Property using Html Agility Pack (HAP) by documentation & example

html-agility-pack.net

3, Меняем у себя строку:

C#:

temp = res.GetAttributeValue("innerhtml", "");

на:

C#:

temp = res.InnerHtml;

nik-n · 29.11.2021

orka13 написал(а):
1. гуглим HtmlAgilityPack innerhtml
2. видим что там вовсе не так InnerHtml парсится как у вас, а так:

InnerHtml Property in Html Agility Pack (HAP)

Learn InnerHtml Property using Html Agility Pack (HAP) by documentation & example

html-agility-pack.net

3, Меняем у себя строку:

C#:

temp = res.GetAttributeValue("innerhtml", "");

на:

C#:

temp = res.InnerHtml;

низкий поклон!

ial1408 · 03.12.2021

C#:

string strTest = ZennoPoster.Parser.ParseByXpath(strDom, "//a", "innertext").ToList()[0].Trim();

nik-n · 03.12.2021

ial1408 написал(а):
C#:

string strTest = ZennoPoster.Parser.ParseByXpath(strDom, "//a", "innertext").ToList()[0].Trim();

это без HAP типа можно?

Использование xpath на чистом html

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Вложения

Client

Client

Client

Вложения

Client

Client

Client

Client

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)