Парсер e-mail'ов

Temashka

Новичок
Регистрация
13.02.2015
Сообщения
1
Благодарностей
0
Баллы
1
Ребята, не нашел на форуме информацию о парсере мыла с определенного сайта, подскажите, как создать такой проект, при котором будут собираться все мейлы с определенного сайта или определенных страниц?

Допустим меня интересует сбор почты всех отелей в Турции с сайта Tophotels.ru
Как это сделать?
 

Санёк

Client
Регистрация
30.08.2013
Сообщения
325
Благодарностей
111
Баллы
43
Долго объяснять нужно, легче у кого то заказать шаблон для этого. Много нюансов может быть, а так как вы в этом Новичок, тогда и времени на обучение потребуется потратить прилично.
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 715
Баллы
113
Вопрос нужно конкретизировать. Что сделали, на чем застряли, что не получилось.
Вряд ли вам кто-то сейчас распишет пошагово все ваши действия.
Начните с того что полностью почитайте wiki, проанализируйте структуру тестовых шаблонов в projectmaker.
Там есть пример парсинга для бинга. Чтобы собрать все ссылки. После аналогичной реализации для нужного вам сайта нужно будет написать шаблон, который будет брать URL из списка и ходить по каждой странице. А оттуда уже экшеном Операции с текстом - Regex уже можно парсить данные. Или каким то иным образом, если мыло всегда лежит в определенном месте страницы.
В любом случае перед выполнением задачи изучите функционал программы
 

VladZen

Administrator
Команда форума
Регистрация
05.11.2014
Сообщения
22 453
Благодарностей
5 913
Баллы
113
Парсинг e-mail адресов, ссылок и т.п. производится с помощью регулярных выражений - https://wiki.zennolab.com/doku.php?id=ru:creating-a-regular-expressions
Вам нужно просто подходящую регулярку для вашего сайта подобрать. E-mail адреса можно выдирать примерно таким выражением - \b[a-zA-Z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,4}\b
 
  • Спасибо
Реакции: Kirya и erema

LexxWork

Client
Регистрация
31.10.2013
Сообщения
1 190
Благодарностей
791
Баллы
113

LexxWork

Client
Регистрация
31.10.2013
Сообщения
1 190
Благодарностей
791
Баллы
113
уже давно удалил(.
 

erema

Пользователь
Регистрация
03.01.2016
Сообщения
30
Благодарностей
6
Баллы
8
Парсинг e-mail адресов, ссылок и т.п. производится с помощью регулярных выражений - https://wiki.zennolab.com/doku.php?id=ru:creating-a-regular-expressions
Вам нужно просто подходящую регулярку для вашего сайта подобрать. E-mail адреса можно выдирать примерно таким выражением - \b[a-zA-Z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,4}\b
молоток,спасибо!
 

mking

Client
Регистрация
08.09.2016
Сообщения
40
Благодарностей
4
Баллы
8
а как задать глубину поиска?
 

Mollll

Client
Регистрация
10.02.2015
Сообщения
11
Благодарностей
0
Баллы
1
Интересная тема, но даже не знаю с чего начать делать такой шаб, как узнать вообще можно ли с определенного сайта вытащить мыло?
 

mking

Client
Регистрация
08.09.2016
Сообщения
40
Благодарностей
4
Баллы
8
Интересная тема, но даже не знаю с чего начать делать такой шаб, как узнать вообще можно ли с определенного сайта вытащить мыло?
пройтись регуляркой по DOM =)
ну а так, на вскидку искать на сайте ссылку контакты, о нас - переходить на страницу, парсить дом модель и сохранять результат в файлик
 

Mollll

Client
Регистрация
10.02.2015
Сообщения
11
Благодарностей
0
Баллы
1
пройтись регуляркой по DOM =)
ну а так, на вскидку искать на сайте ссылку контакты, о нас - переходить на страницу, парсить дом модель и сохранять результат в файлик
так, я так и сделал, а он только 60 результатов выдает
 

Kirya

Client
Регистрация
02.03.2020
Сообщения
4
Благодарностей
0
Баллы
1
Парсинг e-mail адресов, ссылок и т.п. производится с помощью регулярных выражений - https://wiki.zennolab.com/doku.php?id=ru:creating-a-regular-expressions
Вам нужно просто подходящую регулярку для вашего сайта подобрать. E-mail адреса можно выдирать примерно таким выражением - \b[a-zA-Z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,4}\b
Огромное спасибо тебе, админушка, регулярка ваще найс, просто ахонь!
 

Peplos

Client
Регистрация
31.07.2018
Сообщения
28
Благодарностей
6
Баллы
3
Парсинг e-mail адресов, ссылок и т.п. производится с помощью регулярных выражений - https://wiki.zennolab.com/doku.php?id=ru:creating-a-regular-expressions
Вам нужно просто подходящую регулярку для вашего сайта подобрать. E-mail адреса можно выдирать примерно таким выражением - \b[a-zA-Z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,4}\b

Подниму темку)

Подскажите пожалуйста, как немного доработать эту регулярку.
На странице есть список адресов вида example@mail\.com и вот такие со звездочкой example1@mail\.com\n \* .
Беру DOM, из него начинаю выбирать мыла регуляркой
\b[a-zA-Z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,4}\b
при этом мыла парсятся в виде [email protected], [email protected] и тд. Как изменить регулярку, чтобы она на выходе отдавала почты с этой звездочкой \n \*, если она есть у мыла?
 

Вложения

  • 149,8 КБ Просмотры: 94
Последнее редактирование:

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)