я вот как раз вчера начал краулера под это дело писать на шарпе, из за больших размеров сайта приходится это все дело запиливать в базу данных, но если реализовывать через зенку, то нужно в одном фаиле вести лог ссылок под граф - ну самое простое - ссылка донор - ссылка акцептор. Т.е. на одну страницу сразу заведется 150-300 записей, а во втором фаиле вести двухколоночную таблицу (ну или список пофигу) в котором будет находиться фаил задания. Берешь первую строку с удалением, проверяешь на наличие какого то своего маркера и отправляешь туда спайдера, и потом записываешь её в конец но уже с маркером ( условно со знаком +) ну и вот так потихонечку....
Реальных подходов два - можно дергать страницы через GET запрос - это быстро, но не будет блоков контента, которые подгружаются через аякс и яваскрипт, поэтому для себя я выбрал DOM.
Нужно не забыть для себя решить - будешь ли ты использовать роботс.тхт или нет
Неплохо было бы ввести свои дополнительные параметры фильтрации( самому редактировать роботс.тхт для краулера) ибо если вебмастер олень и не закрыл в Clean-params то будет печаль ахрелион одних и тех же страниц, которые реально не нужны
Нужно предусмотреть обработку rel=canonical
Нужно предусмотреть обработку абсолютных и относительных ссылок
Нужно так же чтобы робот шлялся только внутри одного сайта/саба, и не уходил по внешним ссылкам индексировать рейтинг мейл.ру)))
Ну вот как то так... развлекайтесь))))