Как преодолеть кракозябы на Нигме?

Valiksim

Client
Регистрация
14.04.2012
Сообщения
1 344
Благодарностей
298
Баллы
83
Парсинг Нигмы выдаёт периодически перлы,- вот такие:

2016-04-16_0035.png
Почему появляется без понятия. Вставляется строка нормальная, проходит пару страниц и потом, при переходе на новую страницу такое вот.
Вопрос: как преодолеть?
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 407
Благодарностей
9 116
Баллы
113
Парсинг Нигмы выдаёт периодически перлы,- вот такие:

Посмотреть вложение 12756
Почему появляется без понятия. Вставляется строка нормальная, проходит пару страниц и потом, при переходе на новую страницу такое вот.
Вопрос: как преодолеть?
попробовал у себя - все ок..
пробовал в обычной мозилле 43.0 и зенночной 5.9.8.0..
 
Последнее редактирование:

Valiksim

Client
Регистрация
14.04.2012
Сообщения
1 344
Благодарностей
298
Баллы
83
Ну так да, оно идёт нормально, нормально, но в какой-то момент выскакивает вот такое. Вернее что-то в коде ссылки меняется на иероглифы
 

Valiksim

Client
Регистрация
14.04.2012
Сообщения
1 344
Благодарностей
298
Баллы
83
Переделал на обновляемую ссылку (подставляю переменную с номером страницы + кейворд). Уже не видать кракозябов
 

Valiksim

Client
Регистрация
14.04.2012
Сообщения
1 344
Благодарностей
298
Баллы
83
Всё-таки возвращаюсь к теме. Нет-нет, да и попадаются предложения с кракозябами.
HTML:
Я решила выложить этот пост ,чтоб те у кого уже пошел процесс не ждали,но это не значит, что кто в начале должен спешить.....!.
Кто знает какой регуляркой или иным способом можно вычищать такое?
 

Valiksim

Client
Регистрация
14.04.2012
Сообщения
1 344
Благодарностей
298
Баллы
83
Тупо проставил такую вот регулярку
Код:
Р.*?Р
- вроде бы вычищает.
Прогоню денёк, посмотрим
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 715
Баллы
113
Данные эти парсингом собираются со страницы?
 

Valiksim

Client
Регистрация
14.04.2012
Сообщения
1 344
Благодарностей
298
Баллы
83

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 451
Благодарностей
1 885
Баллы
113
Тупо проставил такую вот регулярку
Код:
Р.*?Р
- вроде бы вычищает.
Прогоню денёк, посмотрим
Так удаляются русские слова, начинающиеся и заканчивающиеся буквой "Р". Когда то на форуме это обсуждалось. В этом случае нужно удалять последовательность символов юникода. А вот диапазон поищите в гугле или на форуме.
 

Valiksim

Client
Регистрация
14.04.2012
Сообщения
1 344
Благодарностей
298
Баллы
83
Так удаляются русские слова, начинающиеся и заканчивающиеся буквой "Р". Когда то на форуме это обсуждалось. В этом случае нужно удалять последовательность символов юникода. А вот диапазон поищите в гугле или на форуме.
Ну, примерно так. А вот где и как искать эту последовательность понятия не имею, вернее, как их использовать? Там ведь может быть бесконечное количество вариантов?
 

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 451
Благодарностей
1 885
Баллы
113
Видел когда то на форуме это обсуждали с заменой, там давали диапазоны. Но найти этого не смог.
 

LmPopo

Client
Регистрация
06.12.2012
Сообщения
299
Благодарностей
136
Баллы
43

Valiksim

Client
Регистрация
14.04.2012
Сообщения
1 344
Благодарностей
298
Баллы
83
Спасибо. О перекодировке Я думал, но оно в данном случае не помогает.
Во время перехода с одной поисковой страницы на другую, что-то происходит на их сервере, и поле запроса меняется введённое. САМО. Появляется увуой-то случайный запрос кракозябами. Где и как его выловить ХЗ? Остаётся только вычищать, но и тут засада.
 

LmPopo

Client
Регистрация
06.12.2012
Сообщения
299
Благодарностей
136
Баллы
43
  • Спасибо
Реакции: Valiksim

Valiksim

Client
Регистрация
14.04.2012
Сообщения
1 344
Благодарностей
298
Баллы
83
Можно пробовать перекодировать каждый раз спарсенное
http://rghost.ru/private/7mF9D8t8B/e984c0f07a9b12409a3590265ba59396
Спасибо за подсказку, однако,- ничего не получается. Всё остаётся неизменным, все кракозябы на месте, в обеих случаях
Перекодировка будет действовать при таких кракозябах
Код:
%D0%BA%D0%B0%D0%BA-%D0%BF%D0%B5%D1%80%D0%B5%D0%BA%D0%
а у меня вот такие
Код:
свекровь Рё ее дочь. Р’ этой РєРІР РЅР° РЅР° нее РѕРґРЅСѓ Рё детеР
Это нечто другое, не в кодировке дело. магия, наверное. Эзотерические решения надо искать

Поиск на форуме ничего не даёт
 

Valiksim

Client
Регистрация
14.04.2012
Сообщения
1 344
Благодарностей
298
Баллы
83
Можно пробовать перекодировать каждый раз спарсенное
http://rghost.ru/private/7mF9D8t8B/e984c0f07a9b12409a3590265ba59396
Всё-таки, что-то в этом есть. наверное, именно в этом направлении надо копать.

Текст, который получаю из Нигмы, не полностью в кракозябах, есть русские, английские буквы и кракозябы
Код:
найдете подробные выкройки Рё инструкции РїРѕ пошиву РєСѓРєРѕР» Рё.... Шить легко! платье? халат? накидка? Эту накидку, которая может быть
На одном программистском форуме нашёл, что дело в кодировке страницы. Но, перекодировать Нигму я не могу, тем более, что там не вся страница меняется... В общем, решение подсказали такое,-
1. взять текст, и перекодировать его из UTF-8 в Windows-1251
2. Сохранить тоже в Win-1251
3. Взять Win-1251, перекодировать в UTF-8
4. Сохранить в UTF-8
Однако, не получается.

На шаге 2 весь текст превращается в кракозябы. Обрадовался, но слишком рано. При втором перекодировании всё вернулось в исходное состояние. Какие ещё варианты можно придумать пока не знаю?

Кто разбирается в PHP, может сможете из этого извлечь какую-то полезную информацию - ССЫЛКА . Похоже на что-то, что должно решить проблему
 
Последнее редактирование:

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)