- Регистрация
- 30.05.2019
- Сообщения
- 480
- Благодарностей
- 200
- Баллы
- 43
Нет ничего более худого чем скрапить эмейлы... Обрыскав форум в поисках - единственная регулярка, которая мне хоть как-то помогла была следующая:
Возникли следующие проблемы: она cпарсила другие результаты, которые не удовлетворяют:
image002.jpg@01D25206.709DB
9@5xe
a0bca9d78ab7489fab05d3ef9d815e32@sentry.io
org.mozilla.javascript.gen.c10@3e0913fc
ajax-loader@2x.gif
ania@polish (вместо ania@polish2english.com)
cached@1574596174 --
favico@2x.ico
Из тупого:
а) как исключить результаты с окончанием .gif/.svg/.jpg
б) как заставить неполные результаты добиваться полных (на примере с anya и другими участниками торжества)
Из серьезного:
Иногда в эмейлах присутствуют знаки: "_" , "-", а так же просто пробел. Если включить пробел в регулярку - начинает парситься всё, что идет после него до конца строки ( иногда тысячи символов).
Спасибо большое за внимание.
P.S. Ещё я прикинул - может написать регулярку, где строка после Знака @ должна заканчиваться на доменные имена? может быть она более избирательна будет?)
C#:
string regex = @"[\.\-_A-Za-z0-9]+?@[\.\-A-Za-z0-9]+?[\.\-A-Za-z0-9]{2,}";
image002.jpg@01D25206.709DB
9@5xe
a0bca9d78ab7489fab05d3ef9d815e32@sentry.io
org.mozilla.javascript.gen.c10@3e0913fc
ajax-loader@2x.gif
ania@polish (вместо ania@polish2english.com)
cached@1574596174 --
favico@2x.ico
Код:
fontSize16@md.x;fontSize16@lg.x;paddingTop30px@xs-only.x;paddingBottom30px@xs-only.x;displayblock@md.x;width728px@sm.x;width984px@md.x;width1160px@lg.x;displayinline@sm.x;justifyContentspace-between@xs-only.x;fontSize14@md.x;fontSize14@lg.x;right0px@md-only.x;right0px@sm-only.x;displaynone@md.x;fontSize30@md.x;fontSize31@lg.x;fontSize22@md.x;fontSize22@lg.x;0@sm.x;maxHeight75px@md.x;marginBottom15px@md.x ;important@md.x ;marginBottom20px@xs-only.x;textAligncenter@md.x;fontSize41@md.x;fontSize43@lg.x;-40px@sm.x;40px@sm.x;maxHeight568@md.x;maxHeight269@md.x;maxWidthnone@md.x;textAlignleft@md.x;textAlignright@md.x;marginTop0@md.x
а) как исключить результаты с окончанием .gif/.svg/.jpg
б) как заставить неполные результаты добиваться полных (на примере с anya и другими участниками торжества)
Из серьезного:
Иногда в эмейлах присутствуют знаки: "_" , "-", а так же просто пробел. Если включить пробел в регулярку - начинает парситься всё, что идет после него до конца строки ( иногда тысячи символов).
Спасибо большое за внимание.
P.S. Ещё я прикинул - может написать регулярку, где строка после Знака @ должна заканчиваться на доменные имена? может быть она более избирательна будет?)
Последнее редактирование: