Самый быстрый способ вытащить текст из html (не через браузер)

Remart

Client
Регистрация
06.10.2016
Сообщения
52
Благодарностей
10
Баллы
8
Други, пересмотрел темы, но так и не нашел ответа.
Вопрос простой, может кто ссылки скинет, наверняка его уже решали.

Я могу через get запрос получить содержимое страницы. Но оно - html код.
Пробовал регуляркой чистить, но куча кода остается, а нужен чистый текст.

Прочитал, что каким-то макаром можно в C# через макрос {-Page.Text-}, но так и не разобрался.

Смысл в том, чтобы быстрее достать текст со страницы, не загружая браузер.

Наверняка есть готовые решения на C#. Дайте ответ, пожалуйста. Заранее признателен.
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 407
Благодарностей
9 116
Баллы
113

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 184
Баллы
113
Так может автору надо просто весь текст страницы получить, без умного парсинга тела статьи. Тогда вот так проще:
C#:
var innerText_List= ZennoPoster.Parser.ParseByXpath(project.Variables["html"].Value, @"//html", "innerText");
return innerText_List.ElementAt(0).Trim();
 
  • Спасибо
Реакции: Astraport и Sergodjan

Remart

Client
Регистрация
06.10.2016
Сообщения
52
Благодарностей
10
Баллы
8
Так может автору надо просто весь текст страницы получить, без умного парсинга тела статьи. Тогда вот так проще:
C#:
var innerText_List= ZennoPoster.Parser.ParseByXpath(project.Variables["html"].Value, @"//html", "innerText");
return innerText_List.ElementAt(0).Trim();
Увы, не пойму, что ему нужно.
 

Вложения

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 184
Баллы
113

Remart

Client
Регистрация
06.10.2016
Сообщения
52
Благодарностей
10
Баллы
8
У вас там невалидная верстка страницы в переменной, либо она вообще пустая.
Разобрался, не ту переменную вставлял. Проблема в том, что результат на 50% загрязнен кодом. Удаляется дай Бог только половина.
 

Remart

Client
Регистрация
06.10.2016
Сообщения
52
Благодарностей
10
Баллы
8
Придется обращаться платно, не хватает мозгов. В любом случае, благодарю за ссылки и ответы. Изучил, как смог.
У вас там невалидная верстка страницы в переменной, либо она вообще пустая.
Придется обращаться платно, не хватает мозгов. В любом случае, благодарю за ссылки и ответы. Изучил, как смог.
 

Remart

Client
Регистрация
06.10.2016
Сообщения
52
Благодарностей
10
Баллы
8
@Remart Если нужно без браузера именно, то обратите внимание на эту конкурсную статью с готовым шаблоном https://zennolab.com/discussion/threads/universalnyj-ehkstraktor-tm-kontenta-osnovnoj-stati-stranicy.75657/

Если все же допустимо использовать браузер, то есть специальный экшен для такой задачи: Article Extraction.

Посмотреть вложение 81629
Придется обращаться платно, не хватает мозгов. В любом случае, благодарю за ссылки и ответы. Изучил, как смог.
 

Remart

Client
Регистрация
06.10.2016
Сообщения
52
Благодарностей
10
Баллы
8

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)