JavaScript отключен. Для полноценно использования нашего сайта, пожалуйста, включите JavaScript в своем браузере.

проблемы с кодировкой cp1251 utf8

Автор темы iulius
Дата начала 06.10.2011

I

iulius

Client

#1

при парсинге русского текста если не уточнять кодировку собирает нужный текст но не читабельный.

А при такой форме {-RegExp.RegExp-|-{-FieldData.FieldData-|-●2●2●1●7●5●8●-|-≡1≡9≡3≡1≡4≡3≡1≡0≡1≡3≡-}-|-(?<=\<h2\>)[\w\W]*?(?=\<\/h2\>)|(?<=name\'\)\"\>)[\w\W]*?(?=\<\/a\>)-|-all-|-cp1251}

результат весь исходный текст и сам макрос

{-RegExp.RegExp-|-
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
...
</body>
</html>
-|-(?<=\<h2\>)[\w\W]*?(?=\<\/h2\>)|(?<=name\'\)\"\>)[\w\W]*?(?=\<\/a\>)-|-all-|-cp1251}

пробовал заменять и на -utf8/utf-8/win1251

нет нужного результата.

.txt файлы генерируются.

Будьте любезны ! Подскажите как правильно прописать кодировку при работе с русским текстом и исходным текстом страницы.

Заранее благодарен

step85

Client

#2

Берите не исходный текст страницы, а DOM страницы, потом парсите его.

H

Himot

Client

#3

а из файлов текст в кодировке ansi в кракозябрах выдается

step85

Client

#4

Himot сказал(а):
а из файлов текст в кодировке ansi в кракозябрах выдается

В файлы русский текст надо ложить в кодировке utf-8

Вам необходимо войти или зарегистрироваться, чтобы здесь отвечать.

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)

Поделиться:

Reddit Pinterest Tumblr WhatsApp Электронная почта Ссылка

Верх Низ