Найти - Пользователи
Полная версия: Путаница с кодировками
Начало » Python для экспертов » Путаница с кодировками
1
Master_Sergius
В одном из полученных ответов неким скриптом имеется абракадабра в стиле:

 Ãðãà íèçà òîðû: 
При попытке понять что это:

 chardet.detect(" Ãðãà íèçà òîðû: ")
{'confidence': 0.99, 'encoding': 'utf-8'}

Но, увы никакой encode/decode не помогает разобрать эту ерунду. С помощью сайта https://2cyr.com/decode/?lang=ru удается установить, что это какой-то MIK (поломанный причём). Как всё же питоном правильно обработать и прочесть такую ерунду?
PooH
исходник ответа можно посмотреть?
ZerG
Вполне вероятно что у вас изначально данные например в CP866 вы их втягиваете в CP1251 после чего конвертите в UTF-8 другими словами в йуникод вам уже идет изначально битая абракадабра!
Начните с того что определите в каком формате изначальные данные
Master_Sergius
К сожаленью всё не могу. Может быть слив инфы
Вот, что имеется в хедерах, тобишь всё тот же utf-8:

 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
    <head>
        <meta charset="UTF-8">
    </head>
Master_Sergius
ZerG
Вполне вероятно что у вас изначально данные например в CP866 вы их втягиваете в CP1251 после чего конвертите в UTF-8 другими словами в йуникод вам уже идет изначально битая абракадабра! Начните с того что определите в каком формате изначальные данные

Да, скорее всего проблема в этом. Но ответ мне выдает другая программа, которую по сути Я не могу “трогать”. Что делать в таком случае?
ZerG
Копать дальше. Мы не понимаем что у вас происходит - как же мы вам поможем?
Исключить другую программу - парсить сайт напрямую питоном
попробовать на питоне принимать изначально от программы в другой кодировке.
Стопиццот вариантов! Но учитывая предоставленные вами данные ето пальцем в небо
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB