Приветствую!
Есть задача, которую уже который час не могу решить.
Есть html таблица, из которой паршу данные. Выглядит вот так:
Строчка с неким дефолтным текстом | номер | число
После нескольких итераций удалось успешно всё распарсить, НО выделенное курсивом слово идёт с обрамляющим тегом по типу:
class="link_text ajax_link">Строчка с неким <em title="Title of the geographical place">дефолтным </em>текстом</a>
Как видите, проблема в том, что искомый кусочек текста разбит посередине тегом (бывает, что и в начале и в конце).
Вопрос:
1) Можно ли как-то через C# очистить содержание всей таблицы от html тегов чтобы не перегонять всё в списки и т.п.?
2) Если нет, то может можно как-то модифицировать регулярку, чтобы она парсила и дальше всё как надо, но в середине выпаршиваемого кусочка не учитывала все теги, а брала только текст?
Вот сама регулярка:
(?<=class="link_text\ ajax_link">)\s*([\w\W]*?)\s*(?=</a>)
Заранее огромное спасибо!
Есть задача, которую уже который час не могу решить.
Есть html таблица, из которой паршу данные. Выглядит вот так:
Строчка с неким дефолтным текстом | номер | число
После нескольких итераций удалось успешно всё распарсить, НО выделенное курсивом слово идёт с обрамляющим тегом по типу:
class="link_text ajax_link">Строчка с неким <em title="Title of the geographical place">дефолтным </em>текстом</a>
Как видите, проблема в том, что искомый кусочек текста разбит посередине тегом (бывает, что и в начале и в конце).
Вопрос:
1) Можно ли как-то через C# очистить содержание всей таблицы от html тегов чтобы не перегонять всё в списки и т.п.?
2) Если нет, то может можно как-то модифицировать регулярку, чтобы она парсила и дальше всё как надо, но в середине выпаршиваемого кусочка не учитывала все теги, а брала только текст?
Вот сама регулярка:
(?<=class="link_text\ ajax_link">)\s*([\w\W]*?)\s*(?=</a>)
Заранее огромное спасибо!