- Регистрация
- 22.07.2015
- Сообщения
- 24
- Благодарностей
- 54
- Баллы
- 13
Пишите в личкуСпасибо большое, а как с Вами можно связаться? Нужно сделать программу для парсинга
Пишите в личкуСпасибо большое, а как с Вами можно связаться? Нужно сделать программу для парсинга
Либо оставьте Ваши контактные данные, к Вашей личке нет доступанапишите пожалуйста на почту [email protected]
Версия шаблона на запросах подойдёт и для буржа. Единственное можно ещё добавить в Contact - список с окончаниями ссылок страниц "Контакты" окончания более характерные для зарубежных сайтовУважаемый Neval, подскажите, как можно приспособить данный шаблон под бурж? Боюсь сломать весь код, только с кубиками начал знакомиться. Буду благодарен любому совету!
Без шаблона тратил бы часы времени на поиск контактов, спасибо. Протестировал все 3 шаблона, пользуюсь FULL-версией (работаю в SEO). Как по мне, это самый полноценный вариант, если не нужно обрабатывать титанические массивы информации. Подскажите, какую строку и куда нужно вставить (если это возможно), что бы данные отправлялись в excel-файл по столбцам url - email ?Версия шаблона на запросах подойдёт и для буржа. Единственное можно ещё добавить в Contact - список с окончаниями ссылок страниц "Контакты" окончания более характерные для зарубежных сайтов
А для англоязычных тоже пашет?Сделал версию шаблона полностью на гет запросах + использовал параллельный цикл.
Идея шаблона такая: я собрал с 5000 сайтов ссылки на страницы "Контакты". Часто страница имеет вид сайт.ru/contacts. Я проанализировал список страниц и составил список наиболее встречающихся окончаний для страниц "Контакты".
Отправляем запрос на сайт, ищем там почты, а потом в параллельном цикле отправляем запросы на возможные страницы "Контакты" и собираем почты с ответов. Далее чистим от дублей, отсеиваем некоторый мусор и записываем в конечный файл наши email-ы.
Т.к. шаблон использует параллельный цикл, необходимо в директивах прописать
В папке с шаблоном есть картинка.Код:using System.Threading.Tasks;
Время обработки 1000 сайтов значительно сократилось и стало равным 7-8 минут при 45 потоках. Но количество собранных почт немного сократилось. Если браузерный шаблон Collecting_Emails_Full собрал с 1000 сайтов около 1050 почт, то этот шаблон с этих же сайтов - 960.
Также теперь когда ссылки на сайты закончатся, шаблон почистит от дублей итоговый файл с почтами.
Порядок работы остался таким же. С шаблоном идут текстовые файлы:
Закидываем ссылки в файл Website, запускаем шаблон и по окончании работы получаем готовый список почт.
- BadSite - список сайтов с которых почты не были собраны
- Emails - собранные почты
- Website - ссылки на сайты
- Contacts - список с окончаниями ссылок страниц "Контакты". Вы можете как добавить туда свои окончания так и удалить их
Собирает только почты.Скажите контактную информацию телефон , адрес и название компании он не собирает?
Шаблон прикреплён к первому сообщению и ниже в постах прикреплены ещё 2 версии шаблонаА как можно получить шаблон?
Версия шаблона на запросах подойдёт и для англоязычных сайтов. Единственное можно ещё добавить в Contact (список с окончаниями ссылок страниц "Контакты") окончания более характерные для зарубежных сайтов.А для англоязычных тоже пашет?
У меня та же проблема, придумали как её решить ?после 5000 прочеканых доменов зенка начинает жрать почти 100% ресурсов.
Останавливаю сбрасываю email адреса в другой файл и запускаю по новой...
Останавливаю сбрасываю email адреса в другой файл и запускаю по новой...У меня та же проблема, придумали как её решить ?
Ну, это не совсем выход))) СпасибоОстанавливаю сбрасываю email адреса в другой файл и запускаю по новой...
Посмотрите, как там таблица подключена и через какое время перезагрузка инстанса происходит.Ну, это не совсем выход
ОК! Спс, сейчас попробую.Посмотрите, как там таблица подключена и через какое время перезагрузка инстанса происходит.
Можете просто в шаблон сбора номеров телефонов добавить кубики для email, или вместо телефонов, логика сбора там похожа.
Спасибо автору. Готов задонатить соточку на киви.Приветствую!
Предлагаю вашему вниманию простой шаблон на C# для сбора Email-ов с сайтов.
Парсил на заказ контактые данные с каталогов, 2гис и т.д. И обычно почт было меньше чем сайтов, а как раз они и были больше всего нужны заказчику. Поэтому решил написать небольшой шаблон для сбора email-ов.
Даём шаблону список сайтов и получаем список адресов электронной почты.
Парсер работает через браузер и больше подходит для сбора с русскоязычных сайтов.
Алгоритм:
Конечно почты собираются не со всех сайтов. Процент собираемости более 50%. Специально для конкурса проводил тесты на списке сайтов с megastock.ru получалось около 55-60% + присутствует небольшой процент мусора около 3-5 %.
- Шаблон берёт ссылку на сайт, переходит на него, ищет email на главной странице.
- Если нашёл записывает в файл, если нет, то ищет страницу Контакты.
- Переходит на неё, если есть, и ищет email на ней.
- Если находит email, записывает его в список, а если не находит то огорченно сообщает нам, что email не найден, и записывает сайт в чёрный список.
При парсинге в 45 потоков без картинок 1000 сайтов обрабатывались примерно за 20 минут. Если отключать java-скрипты и прочее, то время составило 10 минут, но адресов электронной почты собиралось примерно на 5-15% меньше.
Никаких настроек нет, вместе с шаблоном идёт 3 текстовых файла:
- WebSite -список сайтов;
- Emails - список почт;
- BadSite - список сайтов, с которых почты собрать не удалось.
Это не обязательное условие.Уважаемый Neval, а обязательное условие я так понял что бы мыло подсвечивалась типо ссылка при наведении?, если не подсвечивается значит не распознано как мыло ?
редактировать регулярку, которая собирает мыла со страницыили же редактировать шаблон что бы он при появлении "@" копировал все что между пробелами к примеру пробел[email protected] пробел
??? ГУРУ ПОДСКАЖИТЕ?
Такая-же проблема. Как решить не понимаю... Но побольше 5000. Около 15тыс могу собрать, дальше комп еле ворочается.после 5000 прочеканых доменов зенка начинает жрать почти 100% ресурсов.
Останавливаю сбрасываю email адреса в другой файл и запускаю по новой...
Вечер добрый!Добрый день! Шаблон еще актуален? Пытаюсь спарсить почты, но шаблон, проходя по моему списку, выдает сообщение, что почты не найдены. Хотя на большинстве заданных сайтов почта висит прям на главной странице.
Есть ли возможность доработать шаблон, чтобы сохранял результаты в таблицу в формате, Сайт - Имейлы без дублей (и если их нет, то был пустой результат)?Вечер добрый!
Давно ими не пользовался, но вот сейчас проверил шаблон Collecting_Emails_Get_ParallerFor и Collecting_Emails_Full
вроде работают, правда первый не все почты собирает.