- Регистрация
- 06.05.2016
- Сообщения
- 22
- Благодарностей
- 3
- Баллы
- 3
Такой вопрос:
Использую сервис https://mercury.postlight.com/web-parser/, через CURL получаю данные с сайтов.
Данные с сайтов где charset=utf-8 "приезжают" в плохой кодировке, например:
"title":"Создание ассоциации – с чего начать?"
"content":"<div id=\"cb\"> <p>Создание ассоциации начинается в момент,"
Это у меня получилось перекинуть в нормальную кодировку и получить текст на русском языке.
А вот такой мусор получается, если сайт в кодировке windows-1251
"title":"пїЅ 5. пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ пїЅпїЅпїЅ (пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ пїЅ пїЅпїЅпїЅпїЅпїЅ)"
content":"<body id=\"pravo-lektsii-grajdanskoe\" class=\"site-material_ext_publish section-material-design noninitial-chapter color-cyan qp-ui qp-ui-mask\"> <header> </header> <p id=\"grid-cont\"> <section class=\"grid_outer chapter\"> <div class=\"article-content\"> <section class=\"cssfinode\"> <p>� �������� ������������"
Вопрос - что поправить, чтобы:
1) или изначально все получать русский текст независимо от кодировки сайта
2) перекодировать получаемый контент для сайтов с кодировкой windows-1251 в читаемый вид, например отсюда:
http://www.ualis.ru/registration/regassouz.html
Исходник проекта приложил, URL вставляется в переменную "url"
Использую сервис https://mercury.postlight.com/web-parser/, через CURL получаю данные с сайтов.
Данные с сайтов где charset=utf-8 "приезжают" в плохой кодировке, например:
"title":"Создание ассоциации – с чего начать?"
"content":"<div id=\"cb\"> <p>Создание ассоциации начинается в момент,"
Это у меня получилось перекинуть в нормальную кодировку и получить текст на русском языке.
А вот такой мусор получается, если сайт в кодировке windows-1251
"title":"пїЅ 5. пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ пїЅпїЅпїЅ (пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ пїЅ пїЅпїЅпїЅпїЅпїЅ)"
content":"<body id=\"pravo-lektsii-grajdanskoe\" class=\"site-material_ext_publish section-material-design noninitial-chapter color-cyan qp-ui qp-ui-mask\"> <header> </header> <p id=\"grid-cont\"> <section class=\"grid_outer chapter\"> <div class=\"article-content\"> <section class=\"cssfinode\"> <p>� �������� ������������"
Вопрос - что поправить, чтобы:
1) или изначально все получать русский текст независимо от кодировки сайта
2) перекодировать получаемый контент для сайтов с кодировкой windows-1251 в читаемый вид, например отсюда:
http://www.ualis.ru/registration/regassouz.html
Исходник проекта приложил, URL вставляется в переменную "url"
Вложения
-
797,7 КБ Просмотры: 264