Regex для выдирания e-mail из HTML-кода страницы

Nick

Client
Регистрация
22.07.2014
Сообщения
1 983
Благодарностей
817
Баллы
113
Собственно, сабж...
Конструктор регулярок предлагает только «начинается с» и «заканчивается на», а вот как банальный адрес почты выдрать, неясно.
Я ещё поковырял блоки поиска и замены, но что-то ничего толком не сработало у меня. Подскажите, плз.
 

Radzhab

Client
Регистрация
23.05.2014
Сообщения
1 500
Благодарностей
1 268
Баллы
113
C#:
[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*@(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?
C#:
([\w\.\-_]+)?\w+@[\w-_]+(\.\w+){1,}
 
  • Спасибо
Реакции: tanichev и Nick

VladZen

Administrator
Команда форума
Регистрация
05.11.2014
Сообщения
22 453
Благодарностей
5 913
Баллы
113
Начинается с <a href="mailto: а заканчивается тем что в коде после адреса электронной почты.
 

Nick

Client
Регистрация
22.07.2014
Сообщения
1 983
Благодарностей
817
Баллы
113
ну, до такого примитива я и сам допёр, спасибо)
проблема в том, что так размечают адрес всего на 1/3 всех страниц — чаще всего пишут обычным текстом - спасибо, если не заменяют собачку на что-нибудь типа -at-
 

VladZen

Administrator
Команда форума
Регистрация
05.11.2014
Сообщения
22 453
Благодарностей
5 913
Баллы
113
Если пишут обычным текстом, то наверняка перед адресом есть слово "e-mail" или "адрес электронной почты".
 
  • Спасибо
Реакции: Nick

VladZen

Administrator
Команда форума
Регистрация
05.11.2014
Сообщения
22 453
Благодарностей
5 913
Баллы
113
Также вот такое регулярное выражение можно попробовать - \b[a-zA-Z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,4}\b
В конструкторе должно срабатывать...
 
  • Спасибо
Реакции: irr и Nick

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 451
Благодарностей
1 885
Баллы
113

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)