проблемы с кодировкой cp1251 utf8

iulius

Client
Регистрация
01.10.2011
Сообщения
57
Благодарностей
3
Баллы
8
при парсинге русского текста если не уточнять кодировку собирает нужный текст но не читабельный.

А при такой форме {-RegExp.RegExp-|-{-FieldData.FieldData-|-●2●2●1●7●5●8●-|-≡1≡9≡3≡1≡4≡3≡1≡0≡1≡3≡-}-|-(?<=\<h2\>)[\w\W]*?(?=\<\/h2\>)|(?<=name\'\)\"\>)[\w\W]*?(?=\<\/a\>)-|-all-|-cp1251}

результат весь исходный текст и сам макрос

{-RegExp.RegExp-|-
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
...
</body>
</html>
-|-(?<=\<h2\>)[\w\W]*?(?=\<\/h2\>)|(?<=name\'\)\"\>)[\w\W]*?(?=\<\/a\>)-|-all-|-cp1251}

пробовал заменять и на -utf8/utf-8/win1251

нет нужного результата.

.txt файлы генерируются.

Будьте любезны ! Подскажите как правильно прописать кодировку при работе с русским текстом и исходным текстом страницы.

Заранее благодарен
 

step85

Client
Регистрация
19.02.2010
Сообщения
1 839
Благодарностей
287
Баллы
83
Берите не исходный текст страницы, а DOM страницы, потом парсите его.
 

Himot

Client
Регистрация
16.09.2010
Сообщения
67
Благодарностей
0
Баллы
0
а из файлов текст в кодировке ansi в кракозябрах выдается
 

step85

Client
Регистрация
19.02.2010
Сообщения
1 839
Благодарностей
287
Баллы
83

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)