- Регистрация
- 30.05.2019
- Сообщения
- 479
- Благодарностей
- 200
- Баллы
- 43
Нет ничего более худого чем скрапить эмейлы... Обрыскав форум в поисках - единственная регулярка, которая мне хоть как-то помогла была следующая:
Возникли следующие проблемы: она cпарсила другие результаты, которые не удовлетворяют:
[email protected]
9@5xe
[email protected]
org.mozilla.javascript.gen.c10@3e0913fc
[email protected]
ania@polish (вместо [email protected])
cached@1574596174 --
[email protected]
Из тупого:
а) как исключить результаты с окончанием .gif/.svg/.jpg
б) как заставить неполные результаты добиваться полных (на примере с anya и другими участниками торжества)
Из серьезного:
Иногда в эмейлах присутствуют знаки: "_" , "-", а так же просто пробел. Если включить пробел в регулярку - начинает парситься всё, что идет после него до конца строки ( иногда тысячи символов).
Спасибо большое за внимание.
P.S. Ещё я прикинул - может написать регулярку, где строка после Знака @ должна заканчиваться на доменные имена? может быть она более избирательна будет?)
C#:
string regex = @"[\.\-_A-Za-z0-9]+?@[\.\-A-Za-z0-9]+?[\.\-A-Za-z0-9]{2,}";
[email protected]
9@5xe
[email protected]
org.mozilla.javascript.gen.c10@3e0913fc
[email protected]
ania@polish (вместо [email protected])
cached@1574596174 --
[email protected]
Код:
[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected] ;[email protected] ;[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected]
а) как исключить результаты с окончанием .gif/.svg/.jpg
б) как заставить неполные результаты добиваться полных (на примере с anya и другими участниками торжества)
Из серьезного:
Иногда в эмейлах присутствуют знаки: "_" , "-", а так же просто пробел. Если включить пробел в регулярку - начинает парситься всё, что идет после него до конца строки ( иногда тысячи символов).
Спасибо большое за внимание.
P.S. Ещё я прикинул - может написать регулярку, где строка после Знака @ должна заканчиваться на доменные имена? может быть она более избирательна будет?)
Последнее редактирование: