Уведомления

Группа в Telegram: @pythonsu

#1 Авг. 22, 2016 19:10:05

Master_Sergius
Зарегистрирован: 2013-09-12
Сообщения: 271
Репутация: +  7  -
Профиль   Отправить e-mail  

Путаница с кодировками

В одном из полученных ответов неким скриптом имеется абракадабра в стиле:

 Ãðãà íèçà òîðû: 
При попытке понять что это:

 chardet.detect(" Ãðãà íèçà òîðû: ")
{'confidence': 0.99, 'encoding': 'utf-8'}

Но, увы никакой encode/decode не помогает разобрать эту ерунду. С помощью сайта https://2cyr.com/decode/?lang=ru удается установить, что это какой-то MIK (поломанный причём). Как всё же питоном правильно обработать и прочесть такую ерунду?



———————————————————————————
Мой блог о семействе *nix: http://nixtravelling.blogspot.com/

Офлайн

#2 Авг. 23, 2016 04:53:09

PooH
От:
Зарегистрирован: 2006-12-05
Сообщения: 1948
Репутация: +  72  -
Профиль   Отправить e-mail  

Путаница с кодировками

исходник ответа можно посмотреть?



Вот здесь один из первых отарков съел лаборанта. Это был такой умный отарк, что понимал даже теорию относительности. Он разговаривал с лаборантом, а потом бросился на него и загрыз…

Офлайн

#3 Авг. 23, 2016 10:15:40

ZerG
Зарегистрирован: 2012-04-05
Сообщения: 2627
Репутация: +  61  -
Профиль   Отправить e-mail  

Путаница с кодировками

Вполне вероятно что у вас изначально данные например в CP866 вы их втягиваете в CP1251 после чего конвертите в UTF-8 другими словами в йуникод вам уже идет изначально битая абракадабра!
Начните с того что определите в каком формате изначальные данные



Влодение рускай арфаграфией - это как владение кунг-фу: настаящие мастира не преминяют ево бес ниабхадимости

Офлайн

#4 Авг. 23, 2016 11:34:07

Master_Sergius
Зарегистрирован: 2013-09-12
Сообщения: 271
Репутация: +  7  -
Профиль   Отправить e-mail  

Путаница с кодировками

К сожаленью всё не могу. Может быть слив инфы
Вот, что имеется в хедерах, тобишь всё тот же utf-8:

 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
    <head>
        <meta charset="UTF-8">
    </head>



———————————————————————————
Мой блог о семействе *nix: http://nixtravelling.blogspot.com/

Офлайн

#5 Авг. 23, 2016 11:35:21

Master_Sergius
Зарегистрирован: 2013-09-12
Сообщения: 271
Репутация: +  7  -
Профиль   Отправить e-mail  

Путаница с кодировками

ZerG
Вполне вероятно что у вас изначально данные например в CP866 вы их втягиваете в CP1251 после чего конвертите в UTF-8 другими словами в йуникод вам уже идет изначально битая абракадабра! Начните с того что определите в каком формате изначальные данные

Да, скорее всего проблема в этом. Но ответ мне выдает другая программа, которую по сути Я не могу “трогать”. Что делать в таком случае?



———————————————————————————
Мой блог о семействе *nix: http://nixtravelling.blogspot.com/

Офлайн

#6 Авг. 23, 2016 12:38:52

ZerG
Зарегистрирован: 2012-04-05
Сообщения: 2627
Репутация: +  61  -
Профиль   Отправить e-mail  

Путаница с кодировками

Копать дальше. Мы не понимаем что у вас происходит - как же мы вам поможем?
Исключить другую программу - парсить сайт напрямую питоном
попробовать на питоне принимать изначально от программы в другой кодировке.
Стопиццот вариантов! Но учитывая предоставленные вами данные ето пальцем в небо



Влодение рускай арфаграфией - это как владение кунг-фу: настаящие мастира не преминяют ево бес ниабхадимости

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version