- Регистрация
- 22.07.2015
- Сообщения
- 24
- Реакции
- 54
- Баллы
- 13
Приветствую!
Предлагаю вашему вниманию простой шаблон на C# для сбора Email-ов с сайтов.
Парсил на заказ контактые данные с каталогов, 2гис и т.д. И обычно почт было меньше чем сайтов, а как раз они и были больше всего нужны заказчику. Поэтому решил написать небольшой шаблон для сбора email-ов.
Даём шаблону список сайтов и получаем список адресов электронной почты.
Парсер работает через браузер и больше подходит для сбора с русскоязычных сайтов.
Алгоритм:
При парсинге в 45 потоков без картинок 1000 сайтов обрабатывались примерно за 20 минут. Если отключать java-скрипты и прочее, то время составило 10 минут, но адресов электронной почты собиралось примерно на 5-15% меньше.
Никаких настроек нет, вместе с шаблоном идёт 3 текстовых файла:
Предлагаю вашему вниманию простой шаблон на C# для сбора Email-ов с сайтов.
Парсил на заказ контактые данные с каталогов, 2гис и т.д. И обычно почт было меньше чем сайтов, а как раз они и были больше всего нужны заказчику. Поэтому решил написать небольшой шаблон для сбора email-ов.
Даём шаблону список сайтов и получаем список адресов электронной почты.
Алгоритм:
- Шаблон берёт ссылку на сайт, переходит на него, ищет email на главной странице.
- Если нашёл записывает в файл, если нет, то ищет страницу Контакты.
- Переходит на неё, если есть, и ищет email на ней.
- Если находит email, записывает его в список, а если не находит то огорченно сообщает нам, что email не найден, и записывает сайт в чёрный список.
При парсинге в 45 потоков без картинок 1000 сайтов обрабатывались примерно за 20 минут. Если отключать java-скрипты и прочее, то время составило 10 минут, но адресов электронной почты собиралось примерно на 5-15% меньше.
Никаких настроек нет, вместе с шаблоном идёт 3 текстовых файла:
- WebSite -список сайтов;
- Emails - список почт;
- BadSite - список сайтов, с которых почты собрать не удалось.
- Номер конкурса шаблонов
- Первый конкурс шаблонов
- Уровень сложности
- Продвинутый
- Категория
- Парсинг




))))). Отсюда вопрос к ТС: может вариант с работой через браузер обусловлен не низким уровнем знаний, а тем, что на гет-запросах меньше почт находило на странице? Ну типа часть сайтов скрывают скриптами адрес почты от парсинга, и только в браузере подгружают пользователю... Или сравнений не проводили?