regexp

Artamosa

Client
Регистрация
31.01.2016
Сообщения
59
Благодарностей
4
Баллы
8
Приветствую!
Есть задача, которую уже который час не могу решить.

Есть html таблица, из которой паршу данные. Выглядит вот так:

Строчка с неким дефолтным текстом | номер | число

После нескольких итераций удалось успешно всё распарсить, НО выделенное курсивом слово идёт с обрамляющим тегом по типу:
class="link_text ajax_link">Строчка с неким <em title="Title of the geographical place">дефолтным </em>текстом</a>

Как видите, проблема в том, что искомый кусочек текста разбит посередине тегом (бывает, что и в начале и в конце).

Вопрос:
1) Можно ли как-то через C# очистить содержание всей таблицы от html тегов чтобы не перегонять всё в списки и т.п.?
2) Если нет, то может можно как-то модифицировать регулярку, чтобы она парсила и дальше всё как надо, но в середине выпаршиваемого кусочка не учитывала все теги, а брала только текст?

Вот сама регулярка:
(?<=class="link_text\ ajax_link">)\s*([\w\W]*?)\s*(?=</a>)

Заранее огромное спасибо!
 

Solus

Client
Регистрация
14.04.2014
Сообщения
378
Благодарностей
120
Баллы
43
Или так:
Код:
// Текст для обработки
string text = project.ExecuteMacro("Строчка с неким <em title=\"Title of the geographical place\">дефолтным </em>текстом");
// Обработка текста "Замена"
project.Variables["a"].Value = Macros.TextProcessing.Replace(text, "<.*?>", "", "Regex", "All");
или так:
http://joxi.ru/MAj0MMef4BZ6wm

тоже самое
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)