Зачем? Просто берите по правилу - только анонимные
Я ОЧЕНЬ сильно сомневаюсь что у вас в пуле живых 20000 неанонимных прокси, чтобы считать их тратой ресурсов
Сделайте проверку наличия текста на странице. если найдено плохое - завершайте шаблон. И поставьте его в планировщик, чтобы запускался раз в N минут
Чтобы не висел и ресурсы машины просто так не ел
А как? Никто не знает какие ссылки считать плохими) Нужно настроить. например, удаление строк по регулярному выражению.
И использовать регулярку (регулярка1|Регулярка2|регулярк3)