- Регистрация
- 03.12.2018
- Сообщения
- 16
- Благодарностей
- 1
- Баллы
- 3
Добрый день.
Пишу парсер сайта, чтобы затем автоматом синонимизировать его и заливать на свой.
русский язык, синонимизировать хочу через сервис textorobot (может кто подскажет лучше, так как тут процент замены слов небольшой - иногда в предложении заменяет всего 1-2 слова).
Итак я спарсил страницу чужого сайта и почистил все, оставив только h1, <p> </p>, <img></img> теги.
А теперь я хочу без потери этих тегов отправить все в синонимайзер. Но проблема в том, что синонимайзер все теги рубит, оставляя только текст.
Вопрос : как мне доставать только тексты из тегов - синонимизировать их и засовывать назад в нужные теги ? (чтобы к примеру не брать картинки и прочее, а только тексты)..
Вот пример почищенной страницы :
-------------------------------------
<p>текст текст текст </p>
<h2>Подзаголовок</h2>
<p><iframe src="https://www.youtube.com/embed/__Hlro_TteA?feature=oembed" allow="autoplay; encrypted-media" allowfullscreen="" style="width: 766px; height: 431px;" frameborder="0" height="394" width="700"></iframe></p>
-------------------------------------
Естественно в синонимайзер я хочу отправить только то что находится в <p>текст текст текст </p> и в <h2> Подзаголовок </h2>
а затем вернуть их назад, а там где видео - не трогать вообще
заранее очень благодарен !
Пишу парсер сайта, чтобы затем автоматом синонимизировать его и заливать на свой.
русский язык, синонимизировать хочу через сервис textorobot (может кто подскажет лучше, так как тут процент замены слов небольшой - иногда в предложении заменяет всего 1-2 слова).
Итак я спарсил страницу чужого сайта и почистил все, оставив только h1, <p> </p>, <img></img> теги.
А теперь я хочу без потери этих тегов отправить все в синонимайзер. Но проблема в том, что синонимайзер все теги рубит, оставляя только текст.
Вопрос : как мне доставать только тексты из тегов - синонимизировать их и засовывать назад в нужные теги ? (чтобы к примеру не брать картинки и прочее, а только тексты)..
Вот пример почищенной страницы :
-------------------------------------
<p>текст текст текст </p>
<h2>Подзаголовок</h2>
<p><iframe src="https://www.youtube.com/embed/__Hlro_TteA?feature=oembed" allow="autoplay; encrypted-media" allowfullscreen="" style="width: 766px; height: 431px;" frameborder="0" height="394" width="700"></iframe></p>
-------------------------------------
Естественно в синонимайзер я хочу отправить только то что находится в <p>текст текст текст </p> и в <h2> Подзаголовок </h2>
а затем вернуть их назад, а там где видео - не трогать вообще
заранее очень благодарен !