Как правильно спарсить страницу?

midncoop

Новичок
Регистрация
29.11.2022
Сообщения
12
Благодарностей
1
Баллы
3
Всем привет, друзья! Подскажите, пожалуйста, решение проблемы

Моя задача: перевести текст и скопировать его, сохраняя его оригинальную текстуру (абзацы)

Вот мой текст: https://dzen.ru/a/Y50D0_XXplwwYRK-
Вставляю его на перевод сюда: https://translate.google.com/?hl=ru&sl=ru&tl=es&op=translate
И далее мне нужно спарсить результат, сохраняя оригинальную текстуру абзацев.

Если просто парсить текст, то почему-то вместо 8 больших строк (как в оригинале), он сохраняет в список 41 абзаец по одному-два предложения.

Как мне сохранить оригинальную структуру текста? Я нашел такой вариант: Парсинг DOM регуляркой (?<=language-name="испанский"\ data-text=")[\w\W]*(?="\ data-crosslingual-hint="") Результат получается правильным на глаз (скрин 1) Но если эту переменную переносить в список, то там почему-то все идет как будто один абзаец (скрин 2) Как мне вернуть тексту абзацы?
 

Вложения

midncoop

Новичок
Регистрация
29.11.2022
Сообщения
12
Благодарностей
1
Баллы
3
Главный вопрос получается:

Вот наш текст:
Мы видим что есть абзацы, а Зенно их не видит. Что сделать чтобы добавить этот текст в список? С абзацами, как есть на самом деле тут
Платежи Путина будут проходить с пенсионерами и детьми в 2022 году. В декабре. Россияне ожидают соответствующей помощи от президента нового 2023 года. СМИ обсуждают возможные решения о поддержке пенсионеров, семей с детьми, военным персоналом и инвалидов. Оказавшись в «Covid», такие платежи штата помогли миллионам семей в России. Будут ли платежи за новый год в штате?
В настоящее время нет информации о государственных льготах для детей в 2023 году. В канун Нового года. Как правило, такие платежи известны в последние недели декабря.


Кроме того, региональным властям могут потребоваться платежи для детей до нового года. Что касается будущего до 2023 года. В последние годы в некоторых областях была создана компенсация для мобилизованных семей. Например, на территории ADG
В некоторых регионах страны есть традиция в системе, поэтому эти дары обычно не эффективны и, следовательно, не могут быть предоставлены затратами.


Три миллиарда рублей присваиваются потребности в семьях в России
Главный министр Михаила, Пишустин, объявил во время видеоконференций с заместителем премьер -министра главного министра, что в 2023 году правительство Российской Федерации не могло соответствовать требованиям Российской федерации в Российской федерации. В течение года 3300 миллионов рублей присуждаются семьям с низким уровнем дохода в год.
«Мы сосредоточены на семьях с низким заражением. Согласно приказам президента, все дети в возрасте от 3 до 7 лет выращиваются в семьях с низкими, оплачиваемыми ежемесячными льготами. Из -за этого мы отправим более 3,3 миллиарда рублей в стране,. - сказал босс.
 

midncoop

Новичок
Регистрация
29.11.2022
Сообщения
12
Благодарностей
1
Баллы
3
В поддержке посоветовали полученный текст из переводчика добавить в список со своим разделителем {-String.Enter-}{-String.Enter-}
В таком случае действительно появляются абзаца, НО! такое работает только если в кубике записан текст сам, а не его переменная

тоесть вот так должно быть по идее и это не работает

101053


А вот так работает, но так невозможно работать, нам же текст из переменной брать надо, а не вручную вбивать его
101054




Может есть еще варианты? Неужели это нерешаемая задача? Тупо целый день бьюсь об стену, нет решения
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 339
Благодарностей
9 088
Баллы
113
В поддержке посоветовали полученный текст из переводчика добавить в список со своим разделителем {-String.Enter-}{-String.Enter-}
В таком случае действительно появляются абзаца, НО! такое работает только если в кубике записан текст сам, а не его переменная
Проверьте, что в переменной в этот момент. Возможно структура содержимого уже другая и нет двойного перевода строки между абзацами.
 
  • Спасибо
Реакции: midncoop

midncoop

Новичок
Регистрация
29.11.2022
Сообщения
12
Благодарностей
1
Баллы
3
Проверьте, что в переменной в этот момент. Возможно структура содержимого уже другая и нет двойного перевода строки между абзацами.
Проверял и 100% текст такой же. Просто если скопировать - вставить в текстовый документ - все ок, абзацы видно. Если попытаться саму переменную открыть и прочитать в том же окошке ее, то там нет абзацев


Что можно сделать в такой ситуации?
 

midncoop

Новичок
Регистрация
29.11.2022
Сообщения
12
Благодарностей
1
Баллы
3
По идее же должен работать ваш способ, но именно при работе через переменную не хочет работать
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 339
Благодарностей
9 088
Баллы
113
Проверял и 100% текст такой же. Просто если скопировать - вставить в текстовый документ - все ок, абзацы видно. Если попытаться саму переменную открыть и прочитать в том же окошке ее, то там нет абзацев


Что можно сделать в такой ситуации?
По идее же должен работать ваш способ, но именно при работе через переменную не хочет работать
Попробуйте режим "Свой текст" заменить на "Cвой Regex" и прописать регулярку \n\n
 
  • Спасибо
Реакции: midncoop

midncoop

Новичок
Регистрация
29.11.2022
Сообщения
12
Благодарностей
1
Баллы
3
Попробуйте режим "Свой текст" заменить на "Cвой Regex" и прописать регулярку \n\n
ВЫ ГЕНИЙ!!!! РАБОТАЕТ!!! СПАСИБО БОЛЬШОЕ!!!!
Целый день работаю над этим, искал обходные пути, но качество текста снижалось при этом
 
  • Спасибо
Реакции: Sergodjan

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)