Емаил маркетинг - одно из очень популярных и перспективных направлений. Хочу поделиться своими наработками по этой теме. Это не кнопка бабло, но это поможет вам подстроить шаблон под свою задумку или взять некоторые технические реализации.
В целом спарсить почту с сайта не очень сложно, но не всегда email на главной странице и не скрыт. Поэтому шаблон работает по такому алгоритму:
1. Парсит title. Если он пустой, то нет смысла дальше тратить время на этот сайт. Добавляем домен в BL (black list).
2. Пытаемся найти почту на главной странице. Если нашли - сохраняем и переходим к следующему домену.
3. Если на главной не нашли, ищем все ссылки, похожие на страницу с контактами. Пробуем спарсить емаил на этой странице. В первую очередь пытаемся найти почту на расположенную на собственном домене (если парсим site.ru, то пытаемся сначала найти почту вида, например, info@site.ru).
4. Если не получилось, сохраняем ссылку на эту страницу. Это пригодится, если нужно максимально проработать базу. В дальнейшем можно написать шаблон, который будет заходить на эти страницы и отправлять письмо через форму обратной связи. Также пытаемся найти ссылку, которая в коде не полным адресом записана, а частично, например "/contact".
5. Сохраняем результат в базу данных. Мне кажется, что с базой данных сложнее настроить шаблон, особенно новичку, но в дальнейшем работа происходит значительно быстрее, все хранится в одном месте, легко и быстро вытаскивать данные, а также это отличный каркас для дальнейшем работы в промышленных масштабах, когда один шаблон парсит домены и заносит в базу, другой берет из базы и парсит емаил. Третий - рассылает письма и т. д.
Вот так выглядит шаблон:

Для работы нескольких шаблонов удобно использовать столбец "Статус". Например, сборщик доменов добавил домен в базу и присвоил статус 0. Парсер адресов, спарсил емаил, добавил их в базу и поставил статус 1. Рассыльщик взял почту, отправил и присвоил статус 2 и т. д.
Рекомендую для работы с базой данных использовать программу Navicat.
P. S. Для начинающих и тех, кто не хочет работать с базой данных не составит труда заменить кубики базы данных, на работу с Excel таблицами или списками.
В целом спарсить почту с сайта не очень сложно, но не всегда email на главной странице и не скрыт. Поэтому шаблон работает по такому алгоритму:
1. Парсит title. Если он пустой, то нет смысла дальше тратить время на этот сайт. Добавляем домен в BL (black list).
2. Пытаемся найти почту на главной странице. Если нашли - сохраняем и переходим к следующему домену.
3. Если на главной не нашли, ищем все ссылки, похожие на страницу с контактами. Пробуем спарсить емаил на этой странице. В первую очередь пытаемся найти почту на расположенную на собственном домене (если парсим site.ru, то пытаемся сначала найти почту вида, например, info@site.ru).
4. Если не получилось, сохраняем ссылку на эту страницу. Это пригодится, если нужно максимально проработать базу. В дальнейшем можно написать шаблон, который будет заходить на эти страницы и отправлять письмо через форму обратной связи. Также пытаемся найти ссылку, которая в коде не полным адресом записана, а частично, например "/contact".
5. Сохраняем результат в базу данных. Мне кажется, что с базой данных сложнее настроить шаблон, особенно новичку, но в дальнейшем работа происходит значительно быстрее, все хранится в одном месте, легко и быстро вытаскивать данные, а также это отличный каркас для дальнейшем работы в промышленных масштабах, когда один шаблон парсит домены и заносит в базу, другой берет из базы и парсит емаил. Третий - рассылает письма и т. д.
Вот так выглядит шаблон:

Для работы нескольких шаблонов удобно использовать столбец "Статус". Например, сборщик доменов добавил домен в базу и присвоил статус 0. Парсер адресов, спарсил емаил, добавил их в базу и поставил статус 1. Рассыльщик взял почту, отправил и присвоил статус 2 и т. д.
Рекомендую для работы с базой данных использовать программу Navicat.
P. S. Для начинающих и тех, кто не хочет работать с базой данных не составит труда заменить кубики базы данных, на работу с Excel таблицами или списками.
- Номер конкурса статей
- Девятый конкурс статей
- Тема статьи
- Парсинг
Вложения
Последнее редактирование:



