Полное удаление html разметки и кодов в тексте

Sunrider

Client
Регистрация
07.11.2015
Сообщения
236
Благодарностей
20
Баллы
18
Здравствуйте. Подскажите как можно очистить текст от html разметки, скриптов и тому подобного.
Простые коды типа (<p>,</p>,<b>,</b>,<span>,</span>,<font>,</font>) это заменой делаю.
На странице могут встречаться вставки видео с ютуба, других видео сервисов и т.д,
Как от этого лишнего кода можно избавиться?
 

Koteyka

Пользователь
Регистрация
10.01.2016
Сообщения
39
Благодарностей
10
Баллы
8
Здравствуйте. Подскажите как можно очистить текст от html разметки, скриптов и тому подобного.
Простые коды типа (<p>,</p>,<b>,</b>,<span>,</span>,<font>,</font>) это заменой делаю.
На странице могут встречаться вставки видео с ютуба, других видео сервисов и т.д,
Как от этого лишнего кода можно избавиться?
Можно попробовать так:

Кубик C#
C#:
string str_res = Regex.Replace("тут либо текст с html, либо переменная с ним",@"<(.|\n)*?>",string.Empty);
return str_res;
Если не получится, можно поискать аналог функции strip_tags из php в c#
 
  • Спасибо
Реакции: Sunrider

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 122
Баллы
113
Заменить <[^>]*> на пустоту (Тип поиска Regex)
 
  • Спасибо
Реакции: kolina, Sunrider и doc

Nick

Client
Регистрация
22.07.2014
Сообщения
1 983
Благодарностей
817
Баллы
113
Можешь загрузить страницу браузером, а потом просто взять Page.Text из автоматических переменных
 
  • Спасибо
Реакции: Sunrider

Sunrider

Client
Регистрация
07.11.2015
Сообщения
236
Благодарностей
20
Баллы
18

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 438
Благодарностей
9 134
Баллы
113

Sunrider

Client
Регистрация
07.11.2015
Сообщения
236
Благодарностей
20
Баллы
18
Заменить <[^>]*> на пустоту (Тип поиска Regex)
Это волшебный код. :-) Вычистил текст великолепно. При этом нужный зеннопостеровский ({ENTER}) оставил как есть. :-)
Благодарочка.
 

Кто просматривает тему: (Всего: 4, Пользователи: 0, Гости: 4)