Парсинг почт с сайтов

Neval

Client
Регистрация
22.07.2015
Сообщения
24
Благодарностей
54
Баллы
13

Vanshap

Новичок
Регистрация
24.07.2018
Сообщения
4
Благодарностей
0
Баллы
1

Vanshap

Новичок
Регистрация
24.07.2018
Сообщения
4
Благодарностей
0
Баллы
1

INNERSPEAKER

Новичок
Регистрация
13.08.2018
Сообщения
5
Благодарностей
1
Баллы
3
Уважаемый Neval, подскажите, как можно приспособить данный шаблон под бурж? Боюсь сломать весь код, только с кубиками начал знакомиться. Буду благодарен любому совету!
 

Neval

Client
Регистрация
22.07.2015
Сообщения
24
Благодарностей
54
Баллы
13
Уважаемый Neval, подскажите, как можно приспособить данный шаблон под бурж? Боюсь сломать весь код, только с кубиками начал знакомиться. Буду благодарен любому совету!
Версия шаблона на запросах подойдёт и для буржа. Единственное можно ещё добавить в Contact - список с окончаниями ссылок страниц "Контакты" окончания более характерные для зарубежных сайтов
 

INNERSPEAKER

Новичок
Регистрация
13.08.2018
Сообщения
5
Благодарностей
1
Баллы
3
Версия шаблона на запросах подойдёт и для буржа. Единственное можно ещё добавить в Contact - список с окончаниями ссылок страниц "Контакты" окончания более характерные для зарубежных сайтов
Без шаблона тратил бы часы времени на поиск контактов, спасибо. Протестировал все 3 шаблона, пользуюсь FULL-версией (работаю в SEO). Как по мне, это самый полноценный вариант, если не нужно обрабатывать титанические массивы информации. Подскажите, какую строку и куда нужно вставить (если это возможно), что бы данные отправлялись в excel-файл по столбцам url - email ?
 
  • Спасибо
Реакции: viktor045

smartwisard

Client
Регистрация
17.01.2017
Сообщения
824
Благодарностей
83
Баллы
28
Я для себя, может, привяжу шаблон к сайту spravker. ru , чего и вам желаю.
Hеплохой справочник именно для этого шаблона, но чуть старый.
 
Последнее редактирование:

Ikigai

Client
Регистрация
13.12.2016
Сообщения
276
Благодарностей
27
Баллы
28
Скажите контактную информацию телефон , адрес и название компании он не собирает?
 
Регистрация
28.12.2016
Сообщения
1
Благодарностей
0
Баллы
1
А как можно получить шаблон?
 

Ikigai

Client
Регистрация
13.12.2016
Сообщения
276
Благодарностей
27
Баллы
28
Сделал версию шаблона полностью на гет запросах + использовал параллельный цикл.
Идея шаблона такая: я собрал с 5000 сайтов ссылки на страницы "Контакты". Часто страница имеет вид сайт.ru/contacts. Я проанализировал список страниц и составил список наиболее встречающихся окончаний для страниц "Контакты".
Отправляем запрос на сайт, ищем там почты, а потом в параллельном цикле отправляем запросы на возможные страницы "Контакты" и собираем почты с ответов. Далее чистим от дублей, отсеиваем некоторый мусор и записываем в конечный файл наши email-ы.
Т.к. шаблон использует параллельный цикл, необходимо в директивах прописать
Код:
using System.Threading.Tasks;
В папке с шаблоном есть картинка.
Время обработки 1000 сайтов значительно сократилось и стало равным 7-8 минут при 45 потоках. Но количество собранных почт немного сократилось. Если браузерный шаблон Collecting_Emails_Full собрал с 1000 сайтов около 1050 почт, то этот шаблон с этих же сайтов - 960.
Также теперь когда ссылки на сайты закончатся, шаблон почистит от дублей итоговый файл с почтами.
Порядок работы остался таким же. С шаблоном идут текстовые файлы:
  • BadSite - список сайтов с которых почты не были собраны
  • Emails - собранные почты
  • Website - ссылки на сайты
  • Contacts - список с окончаниями ссылок страниц "Контакты". Вы можете как добавить туда свои окончания так и удалить их
Закидываем ссылки в файл Website, запускаем шаблон и по окончании работы получаем готовый список почт.
А для англоязычных тоже пашет?
 

Canapsis

Client
Регистрация
02.11.2014
Сообщения
35
Благодарностей
7
Баллы
8
после 5000 прочеканых доменов зенка начинает жрать почти 100% ресурсов.
Останавливаю сбрасываю email адреса в другой файл и запускаю по новой...
 

Neval

Client
Регистрация
22.07.2015
Сообщения
24
Благодарностей
54
Баллы
13
Скажите контактную информацию телефон , адрес и название компании он не собирает?
Собирает только почты.
А как можно получить шаблон?
Шаблон прикреплён к первому сообщению и ниже в постах прикреплены ещё 2 версии шаблона
А для англоязычных тоже пашет?
Версия шаблона на запросах подойдёт и для англоязычных сайтов. Единственное можно ещё добавить в Contact (список с окончаниями ссылок страниц "Контакты") окончания более характерные для зарубежных сайтов.
 
  • Спасибо
Реакции: Astraport

shaggy_man

Client
Регистрация
09.02.2019
Сообщения
14
Благодарностей
1
Баллы
3
после 5000 прочеканых доменов зенка начинает жрать почти 100% ресурсов.
Останавливаю сбрасываю email адреса в другой файл и запускаю по новой...
У меня та же проблема, придумали как её решить ?
 

Canapsis

Client
Регистрация
02.11.2014
Сообщения
35
Благодарностей
7
Баллы
8

shaggy_man

Client
Регистрация
09.02.2019
Сообщения
14
Благодарностей
1
Баллы
3

specialist

Client
Регистрация
28.12.2018
Сообщения
732
Благодарностей
343
Баллы
63
Ну, это не совсем выход
Посмотрите, как там таблица подключена и через какое время перезагрузка инстанса происходит.

Можете просто в шаблон сбора номеров телефонов добавить кубики для email, или вместо телефонов, логика сбора там похожа.
 

shaggy_man

Client
Регистрация
09.02.2019
Сообщения
14
Благодарностей
1
Баллы
3
Посмотрите, как там таблица подключена и через какое время перезагрузка инстанса происходит.

Можете просто в шаблон сбора номеров телефонов добавить кубики для email, или вместо телефонов, логика сбора там похожа.
ОК! Спс, сейчас попробую.
 

maxim.gutareff

Пользователь
Регистрация
27.01.2018
Сообщения
255
Благодарностей
22
Баллы
18
Приветствую!

Предлагаю вашему вниманию простой шаблон на C# для сбора Email-ов с сайтов.

Парсил на заказ контактые данные с каталогов, 2гис и т.д. И обычно почт было меньше чем сайтов, а как раз они и были больше всего нужны заказчику. Поэтому решил написать небольшой шаблон для сбора email-ов.
Даём шаблону список сайтов и получаем список адресов электронной почты.
Парсер работает через браузер и больше подходит для сбора с русскоязычных сайтов.

Алгоритм:
  • Шаблон берёт ссылку на сайт, переходит на него, ищет email на главной странице.
  • Если нашёл записывает в файл, если нет, то ищет страницу Контакты.
  • Переходит на неё, если есть, и ищет email на ней.
  • Если находит email, записывает его в список, а если не находит то огорченно сообщает нам, что email не найден, и записывает сайт в чёрный список.
Конечно почты собираются не со всех сайтов. Процент собираемости более 50%. Специально для конкурса проводил тесты на списке сайтов с megastock.ru получалось около 55-60% + присутствует небольшой процент мусора около 3-5 %.
При парсинге в 45 потоков без картинок 1000 сайтов обрабатывались примерно за 20 минут. Если отключать java-скрипты и прочее, то время составило 10 минут, но адресов электронной почты собиралось примерно на 5-15% меньше.

Никаких настроек нет, вместе с шаблоном идёт 3 текстовых файла:
  • WebSite -список сайтов;
  • Emails - список почт;
  • BadSite - список сайтов, с которых почты собрать не удалось.
Спасибо автору. Готов задонатить соточку на киви.
 

danikoff

Новичок
Регистрация
02.11.2019
Сообщения
2
Благодарностей
0
Баллы
1
Уважаемый Neval, а обязательное условие я так понял что бы мыло подсвечивалась типо ссылка при наведении?, если не подсвечивается значит не распознано как мыло ?

потому что мыл 12 на странице а распознано одно которое подсвечено (( как быть что делать чтоб спарсить ?
 

danikoff

Новичок
Регистрация
02.11.2019
Сообщения
2
Благодарностей
0
Баллы
1
или же редактировать шаблон что бы он при появлении "@" копировал все что между пробелами к примеру пробел[email protected] пробел
??? ГУРУ ПОДСКАЖИТЕ?
 

Neval

Client
Регистрация
22.07.2015
Сообщения
24
Благодарностей
54
Баллы
13
Уважаемый Neval, а обязательное условие я так понял что бы мыло подсвечивалась типо ссылка при наведении?, если не подсвечивается значит не распознано как мыло ?
Это не обязательное условие.

или же редактировать шаблон что бы он при появлении "@" копировал все что между пробелами к примеру пробел[email protected] пробел
??? ГУРУ ПОДСКАЖИТЕ?
редактировать регулярку, которая собирает мыла со страницы
 

shell

Client
Регистрация
16.05.2016
Сообщения
114
Благодарностей
4
Баллы
18
после 5000 прочеканых доменов зенка начинает жрать почти 100% ресурсов.
Останавливаю сбрасываю email адреса в другой файл и запускаю по новой...
Такая-же проблема. Как решить не понимаю... Но побольше 5000. Около 15тыс могу собрать, дальше комп еле ворочается.
 
Последнее редактирование:

zenondd

Новичок
Регистрация
22.09.2020
Сообщения
1
Благодарностей
0
Баллы
1
Добрый день! Шаблон еще актуален? Пытаюсь спарсить почты, но шаблон, проходя по моему списку, выдает сообщение, что почты не найдены. Хотя на большинстве заданных сайтов почта висит прям на главной странице.
 

Neval

Client
Регистрация
22.07.2015
Сообщения
24
Благодарностей
54
Баллы
13
Добрый день! Шаблон еще актуален? Пытаюсь спарсить почты, но шаблон, проходя по моему списку, выдает сообщение, что почты не найдены. Хотя на большинстве заданных сайтов почта висит прям на главной странице.
Вечер добрый!
Давно ими не пользовался, но вот сейчас проверил шаблон Collecting_Emails_Get_ParallerFor и Collecting_Emails_Full
вроде работают, правда первый не все почты собирает.
 

DenisK

Client
Регистрация
28.06.2016
Сообщения
591
Благодарностей
289
Баллы
63
Добрый День, шаблон еще работает? Он актуальный? Просто я в запросах 0, надо чтоб скачал и работало))) Ошибки исправить не смогу.
 

bad robot

Client
Регистрация
07.03.2011
Сообщения
203
Благодарностей
51
Баллы
28
Вечер добрый!
Давно ими не пользовался, но вот сейчас проверил шаблон Collecting_Emails_Get_ParallerFor и Collecting_Emails_Full
вроде работают, правда первый не все почты собирает.
Есть ли возможность доработать шаблон, чтобы сохранял результаты в таблицу в формате, Сайт - Имейлы без дублей (и если их нет, то был пустой результат)?
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)