Как реализовать сбор мыл с разных сайтов

mondayx

Пользователь
Регистрация
18.03.2015
Сообщения
55
Благодарностей
0
Баллы
6
Есть список сайтов, с которых нужно спарсить мыльники
Алгоритм за которым я хочу это делать:
1. Заходим на сайт
2. Делаем поиск по сайту ссылки с текстом "Контакты" или "Связь с нами"
3. Переходим по ссылке
4. Находим знак "@"
5. Парсим мыло целиком


Посоветуйте, как это реализовать или более рациональный алгоритм.
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
22 442
Благодарностей
10 000
Баллы
113
Есть список сайтов, с которых нужно спарсить мыльники
Алгоритм за которым я хочу это делать:
1. Заходим на сайт
2. Делаем поиск по сайту ссылки с текстом "Контакты" или "Связь с нами"
3. Переходим по ссылке
4. Находим знак "@"
5. Парсим мыло целиком


Посоветуйте, как это реализовать или более рациональный алгоритм.
я бы еще с главной страницы парсил, там тоже мыло бывает, например в шапке, сайдбаре или в футере.. Проверять на наличие @ необязательно, просто парсить регуляркой..
Регулярка:
Код:
(\w+@[a-zA-Z0-9-_]+?\.[a-zA-Z]{2,6})
 
  • Спасибо
Реакции: mondayx

mondayx

Пользователь
Регистрация
18.03.2015
Сообщения
55
Благодарностей
0
Баллы
6
Спасибо за регулярку:-)
Тоесть можно прописать все возможные адреса страниц с контактами и парсить переходя на них все?

Например:
site.ru
site.ru/contacts.html
site.ru/contacts.htm
site.ru/contacty.html
site.ru/contacty.htm
site.ru/kontakty.html
site.ru/kontakty.htm

Или есть какой-то более рациональный способ ? :-)

Кстати, как заставить браузер переходить по ссылкам вида : {-Variable.site-} kontakty.html ?

Попробовал следующие варианты:
{-Variable.site-}+kontakty.html
{-Variable.site-}'kontakty.html'
{-Variable.site-}+'kontakty.html'
'{-Variable.site-}'+'kontakty.html'
'{-Variable.site-}kontakty.html'
'{-Variable.site-}+kontakty.html'
 

alekwuy

Client
Регистрация
06.04.2013
Сообщения
1 632
Благодарностей
460
Баллы
83
смотря что у вас в {-Variable.site-}
если там http://site.ru то {-Variable.site-}/kontakty.html
 

mondayx

Пользователь
Регистрация
18.03.2015
Сообщения
55
Благодарностей
0
Баллы
6
смотря что у вас в {-Variable.site-}
если там http://site.ru то {-Variable.site-}/kontakty.html
дак смысл в том, что экшн не вписывает в строку браузера то, что я пишу после переменной
не важно правильно или не правильно
экшен должен вписать в строку браузера данные а тогда нажать Enter, если адрес правильный - заход на страницу. Если такой страницы нет - то "веб-страница недоступна"
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
22 442
Благодарностей
10 000
Баллы
113
дак смысл в том, что экшн не вписывает в строку браузера то, что я пишу после переменной
не важно правильно или не правильно
экшен должен вписать в строку браузера данные а тогда нажать Enter, если адрес правильный - заход на страницу. Если такой страницы нет - то "веб-страница недоступна"
проверьте на всяк. случай, что именно в этот момент в переменной site..
кстати кавычки не нужны..
 

mondayx

Пользователь
Регистрация
18.03.2015
Сообщения
55
Благодарностей
0
Баллы
6
Решил проблему: присвоение переменной {-Variable.site-} значения {-Variable.site-}+/kontakty.html
проверьте на всяк. случай, что именно в этот момент в переменной site..
кстати кавычки не нужны..
Да это лаг был :(
Сделал проект заново - все работает

Теперь вопрос по самой структуре:
возможно ли сделать стандартными екшенами в ПМ : поиск текста "контакты"->клик по тексту (так как предполагается что это ссылка)->переход на страницу контактов->парсинг мыла регуляркой
?
 

mondayx

Пользователь
Регистрация
18.03.2015
Сообщения
55
Благодарностей
0
Баллы
6
Вот шаблон прикрепляю с тем, что я придумал. Время парсинга одного сайта через ПМ - 50 секунд. Но это многовато. Как оптимизировать алгоритм парсинга?
 

Вложения

alekwuy

Client
Регистрация
06.04.2013
Сообщения
1 632
Благодарностей
460
Баллы
83

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
22 442
Благодарностей
10 000
Баллы
113
Вот шаблон прикрепляю с тем, что я придумал. Время парсинга одного сайта через ПМ - 50 секунд. Но это многовато. Как оптимизировать алгоритм парсинга?
это через отложенную отрисовку 50 секунд?
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 068
Благодарностей
5 725
Баллы
113
Вот шаблон прикрепляю с тем, что я придумал. Время парсинга одного сайта через ПМ - 50 секунд. Но это многовато. Как оптимизировать алгоритм парсинга?
шаблон ужас )
Запишите просто через конструктор действий клик по ссылке и там в значении value для href напишите варианты (contact|kontakt|kontact)
тип поиска при этом поставить regexp
 
  • Спасибо
Реакции: mondayx

mondayx

Пользователь
Регистрация
18.03.2015
Сообщения
55
Благодарностей
0
Баллы
6
Спасибо за совет 8-)
 

igzdizain

Client
Регистрация
16.05.2015
Сообщения
500
Благодарностей
15
Баллы
18
шаблон ужас )
Запишите просто через конструктор действий клик по ссылке и там в значении value для href напишите варианты (contact|kontakt|kontact)
тип поиска при этом поставить regexp
на какую ссылку кликать?
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 068
Благодарностей
5 725
Баллы
113
На любую) потом отредактировать экшен) Изменив условия поиска элемента
 
Регистрация
24.12.2015
Сообщения
20
Благодарностей
6
Баллы
3
Есть какие нибудь изменения по шаблону по поиску мыл?
может у кого есть рабочая версия,я бы прикупил для сбора мыл..
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
22 442
Благодарностей
10 000
Баллы
113
есть программа замечательная (один из вариантов) ePochta Extractor
собирает хорошо..
шаблон, мне кажется, все равно не даст эффективности для сбора мыл..
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 685
Благодарностей
4 652
Баллы
113
заходим на главную, парсим все ссылки, удаляем не пренадлежащие сайту и ищем мыло по ним уже. Это будет много дольше, зато пробив будет)
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)