Парсинг почт с сайтов

Уважаемый Neval, подскажите, как можно приспособить данный шаблон под бурж? Боюсь сломать весь код, только с кубиками начал знакомиться. Буду благодарен любому совету!
 
Уважаемый Neval, подскажите, как можно приспособить данный шаблон под бурж? Боюсь сломать весь код, только с кубиками начал знакомиться. Буду благодарен любому совету!
Версия шаблона на запросах подойдёт и для буржа. Единственное можно ещё добавить в Contact - список с окончаниями ссылок страниц "Контакты" окончания более характерные для зарубежных сайтов
 
Версия шаблона на запросах подойдёт и для буржа. Единственное можно ещё добавить в Contact - список с окончаниями ссылок страниц "Контакты" окончания более характерные для зарубежных сайтов
Без шаблона тратил бы часы времени на поиск контактов, спасибо. Протестировал все 3 шаблона, пользуюсь FULL-версией (работаю в SEO). Как по мне, это самый полноценный вариант, если не нужно обрабатывать титанические массивы информации. Подскажите, какую строку и куда нужно вставить (если это возможно), что бы данные отправлялись в excel-файл по столбцам url - email ?
 
  • Спасибо
Реакции: viktor045
Я для себя, может, привяжу шаблон к сайту spravker. ru , чего и вам желаю.
Hеплохой справочник именно для этого шаблона, но чуть старый.
 
Последнее редактирование:
Скажите контактную информацию телефон , адрес и название компании он не собирает?
 
Сделал версию шаблона полностью на гет запросах + использовал параллельный цикл.
Идея шаблона такая: я собрал с 5000 сайтов ссылки на страницы "Контакты". Часто страница имеет вид сайт.ru/contacts. Я проанализировал список страниц и составил список наиболее встречающихся окончаний для страниц "Контакты".
Отправляем запрос на сайт, ищем там почты, а потом в параллельном цикле отправляем запросы на возможные страницы "Контакты" и собираем почты с ответов. Далее чистим от дублей, отсеиваем некоторый мусор и записываем в конечный файл наши email-ы.
Т.к. шаблон использует параллельный цикл, необходимо в директивах прописать
Код:
Развернуть Свернуть Копировать
using System.Threading.Tasks;
В папке с шаблоном есть картинка.
Время обработки 1000 сайтов значительно сократилось и стало равным 7-8 минут при 45 потоках. Но количество собранных почт немного сократилось. Если браузерный шаблон Collecting_Emails_Full собрал с 1000 сайтов около 1050 почт, то этот шаблон с этих же сайтов - 960.
Также теперь когда ссылки на сайты закончатся, шаблон почистит от дублей итоговый файл с почтами.
Порядок работы остался таким же. С шаблоном идут текстовые файлы:
  • BadSite - список сайтов с которых почты не были собраны
  • Emails - собранные почты
  • Website - ссылки на сайты
  • Contacts - список с окончаниями ссылок страниц "Контакты". Вы можете как добавить туда свои окончания так и удалить их
Закидываем ссылки в файл Website, запускаем шаблон и по окончании работы получаем готовый список почт.
А для англоязычных тоже пашет?
 
после 5000 прочеканых доменов зенка начинает жрать почти 100% ресурсов.
Останавливаю сбрасываю email адреса в другой файл и запускаю по новой...
 
Скажите контактную информацию телефон , адрес и название компании он не собирает?
Собирает только почты.
А как можно получить шаблон?
Шаблон прикреплён к первому сообщению и ниже в постах прикреплены ещё 2 версии шаблона
А для англоязычных тоже пашет?
Версия шаблона на запросах подойдёт и для англоязычных сайтов. Единственное можно ещё добавить в Contact (список с окончаниями ссылок страниц "Контакты") окончания более характерные для зарубежных сайтов.
 
  • Спасибо
Реакции: Astraport
после 5000 прочеканых доменов зенка начинает жрать почти 100% ресурсов.
Останавливаю сбрасываю email адреса в другой файл и запускаю по новой...
У меня та же проблема, придумали как её решить ?
 
Ну, это не совсем выход
Посмотрите, как там таблица подключена и через какое время перезагрузка инстанса происходит.

Можете просто в шаблон сбора номеров телефонов добавить кубики для email, или вместо телефонов, логика сбора там похожа.
 
Посмотрите, как там таблица подключена и через какое время перезагрузка инстанса происходит.

Можете просто в шаблон сбора номеров телефонов добавить кубики для email, или вместо телефонов, логика сбора там похожа.
ОК! Спс, сейчас попробую.
 
Приветствую!

Предлагаю вашему вниманию простой шаблон на C# для сбора Email-ов с сайтов.

Парсил на заказ контактые данные с каталогов, 2гис и т.д. И обычно почт было меньше чем сайтов, а как раз они и были больше всего нужны заказчику. Поэтому решил написать небольшой шаблон для сбора email-ов.
Даём шаблону список сайтов и получаем список адресов электронной почты.
gotovo-jpg.27508
Парсер работает через браузер и больше подходит для сбора с русскоязычных сайтов.

Алгоритм:
  • Шаблон берёт ссылку на сайт, переходит на него, ищет email на главной странице.
  • Если нашёл записывает в файл, если нет, то ищет страницу Контакты.
  • Переходит на неё, если есть, и ищет email на ней.
  • Если находит email, записывает его в список, а если не находит то огорченно сообщает нам, что email не найден, и записывает сайт в чёрный список.
Конечно почты собираются не со всех сайтов. Процент собираемости более 50%. Специально для конкурса проводил тесты на списке сайтов с megastock.ru получалось около 55-60% + присутствует небольшой процент мусора около 3-5 %.
При парсинге в 45 потоков без картинок 1000 сайтов обрабатывались примерно за 20 минут. Если отключать java-скрипты и прочее, то время составило 10 минут, но адресов электронной почты собиралось примерно на 5-15% меньше.

Никаких настроек нет, вместе с шаблоном идёт 3 текстовых файла:
  • WebSite -список сайтов;
  • Emails - список почт;
  • BadSite - список сайтов, с которых почты собрать не удалось.

Спасибо автору. Готов задонатить соточку на киви.
 
Уважаемый Neval, а обязательное условие я так понял что бы мыло подсвечивалась типо ссылка при наведении?, если не подсвечивается значит не распознано как мыло ?

потому что мыл 12 на странице а распознано одно которое подсвечено (( как быть что делать чтоб спарсить ?
 
или же редактировать шаблон что бы он при появлении "@" копировал все что между пробелами к примеру пробел1111@mail.ru пробел
??? ГУРУ ПОДСКАЖИТЕ?
 
Уважаемый Neval, а обязательное условие я так понял что бы мыло подсвечивалась типо ссылка при наведении?, если не подсвечивается значит не распознано как мыло ?
Это не обязательное условие.

или же редактировать шаблон что бы он при появлении "@" копировал все что между пробелами к примеру пробел1111@mail.ru пробел
??? ГУРУ ПОДСКАЖИТЕ?
редактировать регулярку, которая собирает мыла со страницы
 
после 5000 прочеканых доменов зенка начинает жрать почти 100% ресурсов.
Останавливаю сбрасываю email адреса в другой файл и запускаю по новой...

Такая-же проблема. Как решить не понимаю... Но побольше 5000. Около 15тыс могу собрать, дальше комп еле ворочается.
 
Последнее редактирование:
Добрый день! Шаблон еще актуален? Пытаюсь спарсить почты, но шаблон, проходя по моему списку, выдает сообщение, что почты не найдены. Хотя на большинстве заданных сайтов почта висит прям на главной странице.
 
Добрый день! Шаблон еще актуален? Пытаюсь спарсить почты, но шаблон, проходя по моему списку, выдает сообщение, что почты не найдены. Хотя на большинстве заданных сайтов почта висит прям на главной странице.
Вечер добрый!
Давно ими не пользовался, но вот сейчас проверил шаблон Collecting_Emails_Get_ParallerFor и Collecting_Emails_Full
вроде работают, правда первый не все почты собирает.
 
Вечер добрый!
Давно ими не пользовался, но вот сейчас проверил шаблон Collecting_Emails_Get_ParallerFor и Collecting_Emails_Full
вроде работают, правда первый не все почты собирает.
Есть ли возможность доработать шаблон, чтобы сохранял результаты в таблицу в формате, Сайт - Имейлы без дублей (и если их нет, то был пустой результат)?
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)