Я беру код не со страницы, а из GET-запроса (быстрее, ведь без использования браузера). чищу сначала через HtmlDecode, потом удаляю блоки script, style, потом оставшиеся теги, ссылки и т.д., и на выходе получаем оставшийся текст. Вот вся эта фигня:
var url =...