Не, я наверное чуть про другое. Когда идет проверка этих ссылок, значит идет парсинг текста? А когда этих ссылок очень много , то скорее всего это какой-то дорвей?
Допустим, начинается забор ссылок сайта - даже небольшой сайт имеет кучу ссылок - туда входят файлы той CMS, на котором сайт - это стили, скрипты, темы, картинки, тексты, реклама и т.д. - их могут быть десятки тысяч. Шаблон забирает всё, что есть и начинает фильтрацию - по факту, оставляя только ссылки на текст.
Из десятков тысяч остается, допустим 500 ссылок с 99% вероятностью, что это ссылки, ведущие на текст. Далее включается проверка на присутствие текста и его забор. Если первичная проверка показала, что по ссылке текста нет, включается дополнительная, через снепшот Вебархива. Но если шаблон показывает, что найдено 500 ссылок, это не значит 500 текстов - часто сам Вебархив уже не хранит этот текст даже через снепшоты. Его просто уже нет.
Часть мусора тоже попадает и отфильтровывается уже при вторичной проверке, в итоге в реальности из 7000 мусорных файлов получаем 400 ссылок на текст, из которых действительно текста будет 70. Как-то так это работает.
Доменов с кириллическими путями за все время я встречал около 20 штук, ручная проверка показывала, что там или копипаст или ничего нужного. Можно размножать папки Вебархив1...Вебархив10 и привязывать одну папку на один поток. Но это уже промышленные масштабы. Лучше использовать методику или придумать свою, чтобы точечно забирать текста.
Если просто скачать список доменов, из которых 70% мусор, потребуется куча ресурсов, чтобы перелопатить сотни и тысячи доменов, даже по ключам.
Еще момент - узкая тематика. Если вы ищите интересные статьи о золотых рыбках или использование швеллеров в домашнем хозяйстве, подумайте, сколько людей могли такое написать и каков шанс их найти. Домены-ключи и тематика часто не связаны с собой.
По методике - часто бывает, что достаточно зацепиться за один тематический сайт, этого достаточно, чтобы выйти на остальные по такой тематике. При этом названия доменов к тематике могут не иметь никакого отношения.