Синонимизация текста, который спарсил в html

segrwolf

Client
Регистрация
03.12.2018
Сообщения
16
Благодарностей
1
Баллы
3
Добрый день.
Пишу парсер сайта, чтобы затем автоматом синонимизировать его и заливать на свой.
русский язык, синонимизировать хочу через сервис textorobot (может кто подскажет лучше, так как тут процент замены слов небольшой - иногда в предложении заменяет всего 1-2 слова).

Итак я спарсил страницу чужого сайта и почистил все, оставив только h1, <p> </p>, <img></img> теги.
А теперь я хочу без потери этих тегов отправить все в синонимайзер. Но проблема в том, что синонимайзер все теги рубит, оставляя только текст.

Вопрос : как мне доставать только тексты из тегов - синонимизировать их и засовывать назад в нужные теги ? (чтобы к примеру не брать картинки и прочее, а только тексты)..

Вот пример почищенной страницы :

-------------------------------------
<p>текст текст текст </p>

<h2>Подзаголовок</h2>
<p><iframe src="https://www.youtube.com/embed/__Hlro_TteA?feature=oembed" allow="autoplay; encrypted-media" allowfullscreen="" style="width: 766px; height: 431px;" frameborder="0" height="394" width="700"></iframe></p>
-------------------------------------


Естественно в синонимайзер я хочу отправить только то что находится в <p>текст текст текст </p> и в <h2> Подзаголовок </h2>
а затем вернуть их назад, а там где видео - не трогать вообще

заранее очень благодарен !
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 596
Благодарностей
8 749
Баллы
113
в синонимайзер я хочу отправить только то что находится в <p>текст текст текст </p> и в <h2> Подзаголовок </h2>
а затем вернуть их назад, а там где видео - не трогать вообще
Берете (парсите регуляркой) заголовок в переменную, вместо заголовка вставляете макрос, напрмиер ##zagolovok## (через Обработка текста - Замена)
Берете (так же) текст в переменную, вместо текста вставляете макрс, например ##text## (так же)
Отправляете содержимое обеих переменных на синонимизацию.
Делаете замену через экшен Обработка текста (Text) - Замена макросов ##zagolovok## и ##text## на новые синонимизированные значения.
 

segrwolf

Client
Регистрация
03.12.2018
Сообщения
16
Благодарностей
1
Баллы
3
Берете (парсите регуляркой) заголовок в переменную, вместо заголовка вставляете макрос, напрмиер ##zagolovok## (через Обработка текста - Замена)
Берете (так же) текст в переменную, вместо текста вставляете макрс, например ##text## (так же)
Отправляете содержимое обеих переменных на синонимизацию.
Делаете замену через экшен Обработка текста (Text) - Замена макросов ##zagolovok## и ##text## на новые синонимизированные значения.
то ест если текст большой - мне придется выгрузить все в список, после чего обрабатывать каждую строчку отдельно - определяя - что в строке - картинка или нет.. если картинка - пропускать, если нет - отправлять в синонимайзер и назад... после чего весь список снова склеивать в один текст..
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 596
Благодарностей
8 749
Баллы
113
то ест если текст большой - мне придется выгрузить все в список, после чего обрабатывать каждую строчку отдельно - определяя - что в строке - картинка или нет.. если картинка - пропускать, если нет - отправлять в синонимайзер и назад... после чего весь список снова склеивать в один текст..
Картинки и прочий код не нужно парсить, только текстовую составляющую, регулярками.
Расставлять макросы в исходном тексте, чтобы потом на их места вставлять (заменять) синонимизированные тексты.
Можно конечно без макросов обойтись, но с ними удобнее.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)