Поиск контактов на сайте ---перебор ссылок?

Vital

Client
Регистрация
28.01.2013
Сообщения
205
Благодарностей
6
Баллы
18
Вообщем на 80% сайтов ссылки скрыты....и нереально(?) пропарсить внутренние адреса сайта в поисках вкладки(url) Контакты...нужно находить е-мейлы

Кто как борется с этим?

Или самый правильный путь -это перебор ссылок
contacts.html
contacts.php
kontakty.html
kontakty.php
и т.п.?
 

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 451
Благодарностей
1 885
Баллы
113
Обычно контакты находятся либо на главной странице, либо во вкладке Контакты, которая имеет всего несколько общих для всех сайтов значений. Можно проверять на главной и потом заходить в данную вкладку поиском кнопки.
 
  • Спасибо
Реакции: Vital

Vital

Client
Регистрация
28.01.2013
Сообщения
205
Благодарностей
6
Баллы
18
Исходные данные - это только адрес сайта....при переходе программы мы не видим ссылки....кнопки Контакты не всегда текстовые а точнее практически всегда графика....точный адрес контактов у всех разный. Я лично вижу только перебор....или есть возможность оптимизировать труд?
 

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 451
Благодарностей
1 885
Баллы
113
Графический\текстовый...не имеет значения. Все они под собой содержут ссылку.
Вот и делаете шаг, который будет кликать со значениями:
документ -1
форма -1
полный тег а

группа поиска 1
атрибут для поиска href
тип поиска regex
значение атрибута (contact|kontakt|и т.д...перечисляются все возможные варианты) - тут варианты, как оно прописывается в урле
номер совпадения 0

группа поиска 2
атрибут для поиска innertext
тип поиска regex
значение атрибута (contact|kontakt|Контакты|и т.д...перечисляются все возможные варианты) - тут варианты как оно отображается на странице
номер совпадения 0
 
  • Спасибо
Реакции: Vital

Nick

Client
Регистрация
22.07.2014
Сообщения
1 983
Благодарностей
817
Баллы
113
У кого есть наработки — поделитесь плиз!
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 684
Благодарностей
4 641
Баллы
113
как вариант. спарсить все ссылки с главной, минуснуть дубли, внешние, длинные ссылки. Искать мыльники по оставшимся ссылкам. Дольше, но пробив должен быть высок
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)