Полное удаление html разметки и кодов в тексте

Sunrider

Client
Регистрация
07.11.2015
Сообщения
241
Благодарностей
20
Баллы
18
Здравствуйте. Подскажите как можно очистить текст от html разметки, скриптов и тому подобного.
Простые коды типа (<p>,</p>,<b>,</b>,<span>,</span>,<font>,</font>) это заменой делаю.
На странице могут встречаться вставки видео с ютуба, других видео сервисов и т.д,
Как от этого лишнего кода можно избавиться?
 

Koteyka

Пользователь
Регистрация
10.01.2016
Сообщения
39
Благодарностей
10
Баллы
8
Здравствуйте. Подскажите как можно очистить текст от html разметки, скриптов и тому подобного.
Простые коды типа (<p>,</p>,<b>,</b>,<span>,</span>,<font>,</font>) это заменой делаю.
На странице могут встречаться вставки видео с ютуба, других видео сервисов и т.д,
Как от этого лишнего кода можно избавиться?
Можно попробовать так:

Кубик C#
C#:
string str_res = Regex.Replace("тут либо текст с html, либо переменная с ним",@"<(.|\n)*?>",string.Empty);
return str_res;
Если не получится, можно поискать аналог функции strip_tags из php в c#
 
  • Спасибо
Реакции: Sunrider

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 139
Баллы
113
Заменить <[^>]*> на пустоту (Тип поиска Regex)
 
  • Спасибо
Реакции: kolina, Sunrider и doc

Nick

Client
Регистрация
22.07.2014
Сообщения
1 996
Благодарностей
828
Баллы
113
Можешь загрузить страницу браузером, а потом просто взять Page.Text из автоматических переменных
 
  • Спасибо
Реакции: Sunrider

Sunrider

Client
Регистрация
07.11.2015
Сообщения
241
Благодарностей
20
Баллы
18

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
22 444
Благодарностей
10 003
Баллы
113

Sunrider

Client
Регистрация
07.11.2015
Сообщения
241
Благодарностей
20
Баллы
18
Заменить <[^>]*> на пустоту (Тип поиска Regex)
Это волшебный код. :-) Вычистил текст великолепно. При этом нужный зеннопостеровский ({ENTER}) оставил как есть. :-)
Благодарочка.
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)