Очистка от html кода

yura005

Client
Регистрация
19.02.2016
Сообщения
60
Благодарностей
0
Баллы
6
Добрый день!

Создал регулярное выражение:
(?<=<div\ class="related__item">).*(?=</a></div>)
Но оно берет и html теги
Подскажите можно ли как-то убрать все html теги (оставить только русские, английские буквы и цифры)

Спасибо
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 407
Благодарностей
9 117
Баллы
113
Добрый день!

Создал регулярное выражение:
(?<=<div\ class="related__item">).*(?=</a></div>)
Но оно берет и html теги
Подскажите можно ли как-то убрать все html теги (оставить только русские, английские буквы и цифры)

Спасибо
у меня есть вот такая коллекция регулярок для этого:

Код:
<.*?>

или

<[^>]*>

или

<[^>]+>

находит все html-теги, включая урлы и метатеги..

или

<(?!p|/p|br|img).*?>

находит все теги, кроме <p></p><br><img ...>
 
  • Спасибо
Реакции: termit и Hannes

yura005

Client
Регистрация
19.02.2016
Сообщения
60
Благодарностей
0
Баллы
6
А как к моему выражению это прикрутить?
 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
замени лишнее на что то а потом спарсь как надо
 

yura005

Client
Регистрация
19.02.2016
Сообщения
60
Благодарностей
0
Баллы
6
Не понял, как узнать что лишнее?
 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113

yura005

Client
Регистрация
19.02.2016
Сообщения
60
Благодарностей
0
Баллы
6
Нет думаю это не правильно, а можно ли как-то вывести только русский буквы
 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
[^А-Яа-я] ну это спарсит только русские буквы
 

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)