- Регистрация
- 11.06.2015
- Сообщения
- 240
- Благодарностей
- 250
- Баллы
- 63
Не секрет, что в паблике полно приличных прокси, которые сложно собирать из-за того, что владельцы ресурсов закрывают свои списки прокси каптчами, кнопками перехода и т.д. от автоматического парсинга. В этой связи представляем шаблон для сбора и проверки прокси со "сложных сайтов"...
Требования к системе:
Windows 64 бита, было проверено на windows 10 и windows 7
Zennoposter 7.3+ или ZennoBox
Значения кнопок диалога:
Пропуск - переход на другой url, без парсинга текущего ресурса;
Проверка - досрочная проверка имеющихся (в файле proxy_ready.txt) прокси, без посещения других url;
Далее (кнопка автозакрытия) - сбор прокси с текущего сайта и переход на следующий url ресурс;
Выход - прекращение работы шаблона без сохранения прокси.
Файлы необходимые для работы:
1.proxy_ready.txt - сюда собираются прокси для последующей проверки
2.proxy.txt - сюда сохраняются проверенные прокси
3.url.txt - файл с источниками прокси для работы скрипта (proxy_parserb.exe), шаблон автоматически сохраняет сюда url из посещенных сайтов. Можно ручками записать свои.
4.proxy_parserb.exe - исполняемый файл скрипта для 64 битной windows
5.source_proxy_v2.zp - файл шаблона
6.profile.zpprofile - файл для работы с профилем
Условия работы скрипта проверки прокси:
1. 500 потоков проверки, проверка идет через тестовые запросы к различным поисковым системам, ищутся соксы.
2. будет проверять прокси в файлах (proxy_ready.txt и proxy.txt), если изменения не проводились больше 3 дней.
3. будет проверять прокси в proxy.txt, если в нем меньше 3500 проксей.
4. будет проверять прокси в proxy_ready.txt, если в нем больше 200 проксей.
Последовательность действий:
1. Шаблон однопоточный, поэтому всегда выставляете "Максимум потоков" равное 1
2. Выставляете нужные вам url-ресурсы.
3. прописываете пути либо оставляете по умолчанию.
4. Если на сайтах нужно совершать действия (решать каптчу, кликать для скачивания на кнопки, выставлять параметры...), то работайте в отображенном инстансе. Два раза кликните на него.
5. Устанавливаете количество дней, через которое нужно удалять файлы с сохраненными прокси в папке загрузки. Парсер использует ранее собранные прокси для новых проверок
6.Всё.
Оригинальные пути:
В случае необходимости(!) можно импортировать во входные настройки файл "экспорт входных настроек, оргинал.xml", чтобы прописать оригинальные пути шаблона. А лучше ручками.
04/08/2021 года за 50 мин - прочекал 7500 штук https://zennolab.com/discussion/threads/parser-cheker-proksi.92202/post-633342 из 30000 грабленых. при работе процессор i5-3570K, 3600 MHz (36 x 100) может грузить на 30% память до 850 мб забирает
Требования к системе:
Windows 64 бита, было проверено на windows 10 и windows 7
Zennoposter 7.3+ или ZennoBox
Значения кнопок диалога:
Пропуск - переход на другой url, без парсинга текущего ресурса;
Проверка - досрочная проверка имеющихся (в файле proxy_ready.txt) прокси, без посещения других url;
Далее (кнопка автозакрытия) - сбор прокси с текущего сайта и переход на следующий url ресурс;
Выход - прекращение работы шаблона без сохранения прокси.
Файлы необходимые для работы:
1.proxy_ready.txt - сюда собираются прокси для последующей проверки
2.proxy.txt - сюда сохраняются проверенные прокси
3.url.txt - файл с источниками прокси для работы скрипта (proxy_parserb.exe), шаблон автоматически сохраняет сюда url из посещенных сайтов. Можно ручками записать свои.
4.proxy_parserb.exe - исполняемый файл скрипта для 64 битной windows
5.source_proxy_v2.zp - файл шаблона
6.profile.zpprofile - файл для работы с профилем
Условия работы скрипта проверки прокси:
1. 500 потоков проверки, проверка идет через тестовые запросы к различным поисковым системам, ищутся соксы.
2. будет проверять прокси в файлах (proxy_ready.txt и proxy.txt), если изменения не проводились больше 3 дней.
3. будет проверять прокси в proxy.txt, если в нем меньше 3500 проксей.
4. будет проверять прокси в proxy_ready.txt, если в нем больше 200 проксей.
Последовательность действий:
1. Шаблон однопоточный, поэтому всегда выставляете "Максимум потоков" равное 1
2. Выставляете нужные вам url-ресурсы.
3. прописываете пути либо оставляете по умолчанию.
4. Если на сайтах нужно совершать действия (решать каптчу, кликать для скачивания на кнопки, выставлять параметры...), то работайте в отображенном инстансе. Два раза кликните на него.
5. Устанавливаете количество дней, через которое нужно удалять файлы с сохраненными прокси в папке загрузки. Парсер использует ранее собранные прокси для новых проверок
6.Всё.
Оригинальные пути:
- папка загрузки {-Project.Directory-}download\
- proxy_ready.txt {-Project.Directory-}proxy_parser\proxy_ready.txt
- proxy.txt {-Project.Directory-}proxy_parser\proxy.txt
- proxy_parserb.exe {-Project.Directory-}proxy_parser\proxy_parserb.exe
В случае необходимости(!) можно импортировать во входные настройки файл "экспорт входных настроек, оргинал.xml", чтобы прописать оригинальные пути шаблона. А лучше ручками.
04/08/2021 года за 50 мин - прочекал 7500 штук https://zennolab.com/discussion/threads/parser-cheker-proksi.92202/post-633342 из 30000 грабленых. при работе процессор i5-3570K, 3600 MHz (36 x 100) может грузить на 30% память до 850 мб забирает
Telegram: @zenno_C_plus_plus
Вложения
-
17,5 КБ Просмотры: 157
-
6,7 КБ Просмотры: 143
-
3,5 КБ Просмотры: 131
-
29,3 КБ Просмотры: 170
-
29,6 КБ Просмотры: 158
-
22,8 КБ Просмотры: 149
Последнее редактирование: