Готова резервная проверка прокси, если чекер по каким-то причинам не будет работать. Разошлю завтра, нужно протестировать на объемах. Также готова помощь, многое переписано и добавлено. Можно её скачать сейчас.
Насчет совмещения скачивания текста и выборочной проверки на уникальность - возникли неожиданные технические проблемы, хотя, казалось бы - всё очень просто; причем такие, что дальнейшая разработка о совмещении под вопросом, так-как не имеет смысла. Попробуем разобрать некоторые:
Берем несколько статей и проверяем на уникальность - сразу проблема - нужно взять несколько ссылок и прогнать их через фильтрацию, чтобы на начальном этапе отсечь мусор, вероятность, что из этих нескольких ссылок мусором окажутся все, запредельная. Значит, это нужно учесть - создание лишних списков, чтобы не затронуть основной, логика, циклы и т.д. Дальше, отфильтровали ссылки и пошли брать текст для проверки - вот только то, что есть ссылка, значит, будет текст, с Вебархивом не работает - этот текст он давно мог просто удалить, потребуется проверка через снепшоты, а это лишний запрос и время с, наверняка, нулевым результатом.
Дальше ещё веселее - учет уника и неуника. Есть большая вероятность, что из оставшихся на проверку 4-5 статей могут оказаться уником, а весь остальной сайт копипастой и наоборот. Данные придется хранить в памяти плюс особо важные писать в файлы конфигурации. Ещё прокси - они могут попасться крайне медленными и то время, за которое скачался бы текст с сайта, будут проверены 3-4 статьи (прокси и загруженность сервиса, что неконтролируемо).
Не менее важно, что всё учесть невозможно, и одна неучтенная ошибка разбалансирует всю систему, после чего баги полезут как тараканы со всех щелёй. Придется всё это тестировать и отлаживать на ходу, что неприемлемо - получится слишком громоздко.
В принципе, все шаблоны открыты и вы можете подогнать это всё для себя, и тестировать также на себе. Я ещё подумаю, как это всё правильно сделать, но, по-моему, всё оказалось гораздо сложней. Это всё на опыте, я знаю, что обязательно произойдет что-то неучтенное и нестандартное.
Да, лучше работать на своих прокси, даже пабликах. Проверка - один поток - одна папка, чтобы не было пересечений, что будет при пересечении потоков, без понятия, но что-то будет.
Да, и поаккуратнее с восстановлением сайтов - если видите, что текст очень хороший, но на скачивание его слишком много - значит, там залит дорвей и сайт просто бросили. Лучше отсекать текст.