- Регистрация
- 20.04.2015
- Сообщения
- 6 052
- Благодарностей
- 6 481
- Баллы
- 113
Приветствую.
Есть задача спарсить несколько сайтов на предмет контактов. То есть логика пока такая.
Переходим на главную > ищем совпадения по нужным ключам "Контакты", связь, поддержка, обратная связь и тд далее.
Если нужный ключ есть, то берем отрывающие теги и закрывающие.
пример:
<boby>
идет какой-то текст
<тут какой-то код>
тут еще что-то
<a href="contacts.html">Контакты</a> или это стразу мыло будет <a id="m_a" href="mailto:мыло@мыло.ру">Реклама на сайте</a>
тут идут коды счетчиков и еще что-то
то есть если на странице есть слово "контакты", то берем всю html строку, куда встроено ключевое слово/фраза
Есть задача спарсить несколько сайтов на предмет контактов. То есть логика пока такая.
Переходим на главную > ищем совпадения по нужным ключам "Контакты", связь, поддержка, обратная связь и тд далее.
Если нужный ключ есть, то берем отрывающие теги и закрывающие.
пример:
<boby>
идет какой-то текст
<тут какой-то код>
тут еще что-то
<a href="contacts.html">Контакты</a> или это стразу мыло будет <a id="m_a" href="mailto:мыло@мыло.ру">Реклама на сайте</a>
тут идут коды счетчиков и еще что-то
то есть если на странице есть слово "контакты", то берем всю html строку, куда встроено ключевое слово/фраза