Как взять только текст из DOMа

b1zar

Client
Регистрация
29.06.2019
Сообщения
107
Благодарностей
67
Баллы
28
В самой зенке есть такая хорошая переменая Page.Text, которая берет текст с активной страницы. А можно ли такое же проделать имея только DOM? Про регулярку которая чистит HTML-теги (<.*?>) я знаю. Но дело вот в чем: мне попадаются разные сайты и после прохода этой регуляркой, бывает остается мусор, он всегда разный, что бы сделать под него регулярку. Можно как то выдернуться текст без мусора имея только DOM?
 
Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63
В самой зенке есть такая хорошая переменая Page.Text, которая берет текст с активной страницы. А можно ли такое же проделать имея только DOM? Про регулярку которая чистит HTML-теги (<.*?>) я знаю. Но дело вот в чем: мне попадаются разные сайты и после прохода этой регуляркой, бывает остается мусор, он всегда разный, что бы сделать под него регулярку. Можно как то выдернуться текст без мусора имея только DOM?
Парсер Орка посмотрите там куча фишек по очистке текста.

Можно как то выдернуться текст без мусора имея только DOM?
Если только какую-то стороннюю библиотеку используя.
 
  • Спасибо
Реакции: b1zar

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 407
Благодарностей
9 116
Баллы
113
В самой зенке есть такая хорошая переменая Page.Text, которая берет текст с активной страницы. А можно ли такое же проделать имея только DOM? Про регулярку которая чистит HTML-теги (<.*?>) я знаю. Но дело вот в чем: мне попадаются разные сайты и после прохода этой регуляркой, бывает остается мусор, он всегда разный, что бы сделать под него регулярку. Можно как то выдернуться текст без мусора имея только DOM?
Можете попробовать воспользоваться встроенным в Зеннопостер инструментом "Анализ содержимого - Article Extraction": https://c2n.me/48cPNjV.png

71453


DOM записать в файл, напрмиер index.html, затем в браузере перейти по file:///C:/temp/index.html с помощью экшена "Табы - Переход на страницу" и применить экшен "Анализ содержимого - Article Extraction".
 
Последнее редактирование:

b1zar

Client
Регистрация
29.06.2019
Сообщения
107
Благодарностей
67
Баллы
28
Можете попробовать воспользоваться встроенным в Зеннопостер инструментом "Анализ содержимого - Article Extraction": https://c2n.me/48cPNjV.png

DOM записать в файл, напрмиер index.html, затем в браузере перейти по file:///C:/temp/index.html с помощью экшена "Табы - Переход на страницу" и применить экшен "Анализ содержимого - Article Extraction".
Да хотелось минимизировать работу с вкладками, по сути данный метод отличается от перехода на ориг. ссылку тем, что менее будет кушать ресурсы изза отсутствия медиа. Думал, что есть встроенный метод, о котором я не знаю, ведь Page.Text работает тоже с DOMом, только на открытой странице. Жаль что такого нет, придется смотреть костыли которые предложил Сибиряк
 

b1zar

Client
Регистрация
29.06.2019
Сообщения
107
Благодарностей
67
Баллы
28
Парсер Орка посмотрите там куча фишек по очистке текста.


Если только какую-то стороннюю библиотеку используя.
Парсер ОРКА я видел, он не подошел, потому что работает только Ru/En, а мне бывает нужно обработать сайты не только на этом языке, а вот вторая ссылка интересная, сейчас буду с ней ковыряться
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)