Регулярное выражение удаление дубликатов html тегов

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
Доброго времени суток, мне нужна помощь в удалении html тегов дублей, пример:
<h5> слова слова слова </h5><h5> &#8211;слова слова слова </h5><h5><h5><h5><h5> слова слова слова (2) </h5></h5></h5></h5><ul><ul><li> слова слова слова<strong> слова </strong> . All </li></ul></ul> <p> слова слова слова </p><p> слова слова слова </p><p><p><p> слова слова слова </p></p></p>

Просто брать и делать блоком замену через </p></p></p>|</p></p>|</p></p></p></p>
На </p> я могу, мне нужно понять как правильно сделать:
1) чтобы одна регулярка удовлетворила под не ограниченное количество одинаковых рядом стоящих тегов в плотную, между ними нет и не будет пробелов и слов, они все стоят вплотную </p></p></p> или <ul><ul> или </h5></h5></h5></h5> и т.д.
2) Нужно что-то подобного вида: [</h5>]{2,}
т.е. как сделать, чтобы регулярка ловила от 2 и более одинаковых тегов </h5> или <h5> или </p> и дальше сделать замену на один тег
 

samsonnn

Client
Регистрация
02.06.2015
Сообщения
1 761
Благодарностей
1 432
Баллы
113
создайте кубик



создайте переменную text


встав те туда этот код:
string text = project.Variables["text"].Value;
project.Variables["text"].Value = System.Text.RegularExpressions.Regex.Replace(text, @"<.*?>", "");




В переменную text положите ваш код с тегами, например ваша писанина:



Воспроизведите кубик и в переменной будет текст без тегов:

 

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
(\<(/?[^\>]+)\>){2,} что-то подобное нужно
 

samsonnn

Client
Регистрация
02.06.2015
Сообщения
1 761
Благодарностей
1 432
Баллы
113
Последнее редактирование:

doc

Client
Регистрация
30.03.2012
Сообщения
8 685
Благодарностей
4 641
Баллы
113
Код:
(</?\w+>)\1+
заменить по регулярке на $1
 
  • Спасибо
Реакции: keltuzhaknut

doc

Client
Регистрация
30.03.2012
Сообщения
8 685
Благодарностей
4 641
Баллы
113
но регулярка здесь не выход. Повторы могут быть неравномерны и, как итог, после такой замены будет нарушена структура html
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)