Регулярное выражение удаление дубликатов html тегов

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Реакции
3
Баллы
18
Доброго времени суток, мне нужна помощь в удалении html тегов дублей, пример:
<h5> слова слова слова </h5><h5> &#8211;слова слова слова </h5><h5><h5><h5><h5> слова слова слова (2) </h5></h5></h5></h5><ul><ul><li> слова слова слова<strong> слова </strong> . All </li></ul></ul> <p> слова слова слова </p><p> слова слова слова </p><p><p><p> слова слова слова </p></p></p>

Просто брать и делать блоком замену через </p></p></p>|</p></p>|</p></p></p></p>
На </p> я могу, мне нужно понять как правильно сделать:
1) чтобы одна регулярка удовлетворила под не ограниченное количество одинаковых рядом стоящих тегов в плотную, между ними нет и не будет пробелов и слов, они все стоят вплотную </p></p></p> или <ul><ul> или </h5></h5></h5></h5> и т.д.
2) Нужно что-то подобного вида: [</h5>]{2,}
т.е. как сделать, чтобы регулярка ловила от 2 и более одинаковых тегов </h5> или <h5> или </p> и дальше сделать замену на один тег
 
создайте кубик

snbycfx.jpg


создайте переменную text
CNYb11P.jpg


встав те туда этот код:
string text = project.Variables["text"].Value;
project.Variables["text"].Value = System.Text.RegularExpressions.Regex.Replace(text, @"<.*?>", "");


wDEh4jY.jpg


В переменную text положите ваш код с тегами, например ваша писанина:

WkbTVgG.jpg


Воспроизведите кубик и в переменной будет текст без тегов:

UxwNfZx.jpg
 
(\<(/?[^\>]+)\>){2,} что-то подобное нужно
 
Последнее редактирование:
но регулярка здесь не выход. Повторы могут быть неравномерны и, как итог, после такой замены будет нарушена структура html
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)