Регулярное выражение, убрать спецсимволы HTML (SGML) подряд и по одному

Mikhail B.

Client
Регистрация
23.12.2014
Сообщения
14 418
Благодарностей
5 454
Баллы
113
1) Мне надо почистить текст от всех подобных символов.
Пример.
Код:
❆ ☑ ❼ ➤
Пробовал символьным классом \W, но он берет знаки препинания. Можно как то исправить или может есть другой класс?

2) Мне надо убрать повторяющиеся знаки
Пример
Код:
---------------------------------------------------------------
или
Код:
============= ++++++++++++++
Но это я знаю как решить, надо поставить в конце регулярки знак +
Например \W+ ну или что бы наверняка \W\W\W+
Но как писал выше берет точки с пробелами. Не то выходит.
Подскажите решения.
теги
Спецсимволы HTML, или символы-мнемоники, представляют собой конструкцию SGML (англ. Standard Generalized Markup Language — стандартный обобщённый язык разметки), ссылающуюся на определенные символы из символьного набора документа. убрать в тексте лишние символы регулярка regex заменить повторяющиеся подряд знаки
 
Последнее редактирование:

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 122
Баллы
113
Мне надо почистить текст от всех подобных символов.
[^\w\\\-/.,!?:;] заменить на пустоту
остальные символы, которые нужно оставить, можешь дальше перечислить.
2) Мне надо убрать повторяющиеся знаки
(\W)+\1 заменить на $1
или чтоб не трогать переносы строк ([^\w\r\n])+\1 заменить на $1
 
  • Спасибо
Реакции: Mikhail B.

Mikhail B.

Client
Регистрация
23.12.2014
Сообщения
14 418
Благодарностей
5 454
Баллы
113
[^\w\\\-/.,!?:;] заменить на пустоту
остальные символы, которые нужно оставить, можешь дальше перечислить.
Пробелы тоже берет, по этому я на пробел меняю. Но некоторые символы остаются.
Например
Код:
❗️ ⁉️
 

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 122
Баллы
113
  • Спасибо
Реакции: systema и Mikhail B.

Mikhail B.

Client
Регистрация
23.12.2014
Сообщения
14 418
Благодарностей
5 454
Баллы
113

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 122
Баллы
113
А можешь пояснить как она работает?
Например,
[^\w] - НЕ слово = \W;
[^\s] - НЕ пробельные символы;
[^.,!?] - НЕ точка, НЕ запятая, НЕ воскл. знак и НЕ вопр. знак;
[^\w\s\\\-/.,!?:;] - НЕ слово, НЕ пробельные символы, НЕ слэши и т.д.
Т.е, грубо говоря, всё что в квадратных скобках после ^ - это НЕ.
Экранировать обязательно нужно обратный слэш и дефис, если он не в конце, остальные символы можно не экранировать. Хотя, может и ещё какие-то обязательно)).
 

kolina

Client
Регистрация
05.10.2019
Сообщения
165
Благодарностей
47
Баллы
28
Можно ли получить регуляркой такой результат:

есть кусок кода:
<b>Цена:</b>
1&nbsp;374,16 руб.
</li>
мне нужно получить результат только цифры, и за 1 раз.
Бывают ли регулярные выражения, которые из этого кода выведут такой результат 1374,16
Такой результат получить я умею: 1&nbsp;374,16 , а вот первый вариант нет

Большое спасибо заранее
 

Mikhail B.

Client
Регистрация
23.12.2014
Сообщения
14 418
Благодарностей
5 454
Баллы
113
  • Спасибо
Реакции: kolina

kolina

Client
Регистрация
05.10.2019
Сообщения
165
Благодарностей
47
Баллы
28
Шаблон просто берёт из списка регулярку, закреплённую за опр сайтом. Если за раз нельзя, то переписывать логику шаблона нужно будет. С 200 сайтами было всё ок, а тут вылез один, и ломаю голову.
Хотелось бы без 2 кубика, потому что будет не 2 а штук 5, и список ещё один
 

Mikhail B.

Client
Регистрация
23.12.2014
Сообщения
14 418
Благодарностей
5 454
Баллы
113
Ну это надо doc звать) (по моему такие оповещения не работают на форуме)
 
  • Спасибо
Реакции: kolina

Roman48

Client
Регистрация
28.02.2016
Сообщения
2 058
Благодарностей
745
Баллы
113
Можно ли получить регуляркой такой результат:

есть кусок кода:
<b>Цена:</b>
1&nbsp;374,16 руб.
</li>
мне нужно получить результат только цифры, и за 1 раз.
Бывают ли регулярные выражения, которые из этого кода выведут такой результат 1374,16
Такой результат получить я умею: 1&nbsp;374,16 , а вот первый вариант нет

Большое спасибо заранее
Этот пост мне помог, от этой &nbsp; ерунды избавиться, не совсем ерунда, это могут быть кавычки,тире
 
  • Спасибо
Реакции: kolina

kolina

Client
Регистрация
05.10.2019
Сообщения
165
Благодарностей
47
Баллы
28

Mikhail B.

Client
Регистрация
23.12.2014
Сообщения
14 418
Благодарностей
5 454
Баллы
113

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)