Как взять только текст из DOMа

Сибиряк · 30.06.2020

b1zar сказал(а):
В самой зенке есть такая хорошая переменая Page.Text, которая берет текст с активной страницы. А можно ли такое же проделать имея только DOM? Про регулярку которая чистит HTML-теги (<.*?>) я знаю. Но дело вот в чем: мне попадаются разные сайты и после прохода этой регуляркой, бывает остается мусор, он всегда разный, что бы сделать под него регулярку. Можно как то выдернуться текст без мусора имея только DOM?

Парсер Орка посмотрите там куча фишек по очистке текста.

b1zar сказал(а):
Можно как то выдернуться текст без мусора имея только DOM?

Если только какую-то стороннюю библиотеку используя.

Sergodjan · 30.06.2020

b1zar сказал(а):
В самой зенке есть такая хорошая переменая Page.Text, которая берет текст с активной страницы. А можно ли такое же проделать имея только DOM? Про регулярку которая чистит HTML-теги (<.*?>) я знаю. Но дело вот в чем: мне попадаются разные сайты и после прохода этой регуляркой, бывает остается мусор, он всегда разный, что бы сделать под него регулярку. Можно как то выдернуться текст без мусора имея только DOM?

Можете попробовать воспользоваться встроенным в Зеннопостер инструментом "Анализ содержимого - Article Extraction": https://c2n.me/48cPNjV.png

DOM записать в файл, напрмиер index.html, затем в браузере перейти по file:///C:/temp/index.html с помощью экшена "Табы - Переход на страницу" и применить экшен "Анализ содержимого - Article Extraction".

Поиск

Как взять только текст из DOMа

b1zar

Client

Сибиряк

Client

Sergodjan

Administrator

b1zar

Client

b1zar

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)