Помогите с регуляркой (нужно взять открывающие и закрывающие теги)

  • Автор темы Автор темы backoff
  • Дата начала Дата начала

backoff

Client
Регистрация
20.04.2015
Сообщения
6 357
Реакции
6 656
Баллы
113
Приветствую.
Есть задача спарсить несколько сайтов на предмет контактов. То есть логика пока такая.
Переходим на главную > ищем совпадения по нужным ключам "Контакты", связь, поддержка, обратная связь и тд далее.
Если нужный ключ есть, то берем отрывающие теги и закрывающие.

пример:
<boby>
идет какой-то текст
<тут какой-то код>
тут еще что-то
<a href="contacts.html">Контакты</a> или это стразу мыло будет <a id="m_a" href="mailto:мыло@мыло.ру">Реклама на сайте</a>
тут идут коды счетчиков и еще что-то

то есть если на странице есть слово "контакты", то берем всю html строку, куда встроено ключевое слово/фраза
 
Да, регулярка не самая простая для обработки. Но тут нужно чем то жертвовать. Если хотите обрабатывать различные сайты и искать на них не пойми что, это всегда будет сложно для процессора.
Скажу больше - запросто может полностью повиснуть поток на некоторых сайтах, по этой причине эту тему нужно реализовывать параллельными потоками, с контролем по времени зависания.
 
подскажите по вопросу новому. плиз.
вот например как искать по имени домена?

вот например есть сайт - 123.ru
на главной его странице например указан емай - info@123.ru

как составить регулярку чтобы найти первые 10 символов до знака @ и само окончание 123.ru

------------------
и второй вопрос

как можно взять 10 символов из текста, например такого:

9324н59345н91348513еоупещуцкпэуцк
пыв
ап
ывап
sd
fgdsfgdfgsdfgsdf mail@mail.ru wgkljngksjnlkghsl;hk

то есть я вырезал кусок текста, который совпадает по условиям, как мне обрезать до - fgsdf mail@mail.ru в идеале конечно только само мыло получить, но думаю это сложно
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)