Привет всем.
Есть страничка (для примера - http://www.algoritm.by/catalog-laptops_page_all)
Парсим ее исходный код в переменную "source_top".
Далее нужно выкинуть из кода самые глубокие блоки, где InnerText не содержит знаков ".,!?;:"
И двигаться от самых глубоких на уровень выше. А далее спарсить итоговый вариант <body>, но уже без тегов, где отсутствуют знаки ".,!?;:"
Для примера я взял тег Div (использую htmlagilitypack):
[THEAD]
[/THEAD]Как и следовало ожидать - ничего не работает.
Где я что-то делаю не так?
Руки растут не из плеч - и опыта в программировании особо не имею, потому путем тыкания накидал такой код
Есть страничка (для примера - http://www.algoritm.by/catalog-laptops_page_all)
Парсим ее исходный код в переменную "source_top".
Далее нужно выкинуть из кода самые глубокие блоки, где InnerText не содержит знаков ".,!?;:"
И двигаться от самых глубоких на уровень выше. А далее спарсить итоговый вариант <body>, но уже без тегов, где отсутствуют знаки ".,!?;:"
Для примера я взял тег Div (использую htmlagilitypack):
Код:
|
Где я что-то делаю не так?
Руки растут не из плеч - и опыта в программировании особо не имею, потому путем тыкания накидал такой код