Пардон, заодно спрошу, - у меня регулярно пропадает Дебугерское окно с переменными (неудобное кстати).
И как его выковырять - непонятно - лечится только переустановкой. по F2 - только список, без значение.
Так в том то и дело, не все в коде прикрыто <>
при очистке пропустили <scripts> </script>
их самих забрали, и ж
а там уже незакавычено.
возьмите вот хоть это _http://design-milk.com/the-butler-organizer-by-curtis-micklish/
попробуйте плиз
там есть правда, что попарсить, но удалиться не всё
Спасибо за оперативность,
но кой-чё остается...
дело в том, что Zenno при чистке исходного кода страницы забирает только сами теги "<scripts>" "</script>"(их нет уже), а всё что внутри остается.
это не совсем правильно.
ох.
нету. совсем нету "<scripts>" "</script>"
нечего вырезать.
остатся в {-Page.Text-} - текст и кучки мусора в разных местах, которые раньше был между "<scripts>" "</script>"
и <scripts>.*?</script> некчему применять, если только к прошлой жизни
Если вы про "выделение основной статьи", то там отсекаются не столько html элементы со своими аттрибутами, сколько комментарии, навигация по мере возможности и так далее.
Чтобы подвергать анализу максимально приближенный к основсному тексту кусок.
ну "выделение основной статьи", это на любителя, а вот если уж текст, так текст -
Табы->Данные->Взять Текст. по сути это {-Page.Text-} и он работает кривовато.
посмотрите пожалуйста.
мусора там не просто много, его там больше чем текста, (сейчас много смотрю)
при удаленных <script> вычистить его практически невозможно, ибо он слишком многообразен
Подскажите, пожалуйста, как спарсить не весь, а только определённый фрагмент текста на странице?
Сейчас делаю так:
1) Экшеном "Данные" беру (DOM) с помощью регулярки нужный мне фрагмент текста;
2) Далее, удаляю HTML теги через экшен "обработка текста" – замена на пустоту регуляркой <.*?>
Этот способ работает, но текст получается слипшейся, так как теги переноса на новую строку – <br /> удаляются тоже.
Как лучше парсить текст, чтобы его читабельность оставалась нормальной?
Ага, спасибо, только хотел отписаться, что нашёл решение, но вы меня опередили! ))
Кстати, там ещё надо добавить удаление пустых строк регуляркой \n\r – иначе пустые строки получаются, а на сайте доноре просто перенос текста на новую строку – без пустоты.
Короче, какие-то танцы с бубном... )) Всё равно немного не так, как в источнике.