Форум сайта python.su
В одном из полученных ответов неким скриптом имеется абракадабра в стиле:
Ãðãà Ãèçà òîðû:
chardet.detect(" Ãðãà Ãèçà òîðû: ") {'confidence': 0.99, 'encoding': 'utf-8'}
Офлайн
исходник ответа можно посмотреть?
Офлайн
Вполне вероятно что у вас изначально данные например в CP866 вы их втягиваете в CP1251 после чего конвертите в UTF-8 другими словами в йуникод вам уже идет изначально битая абракадабра!
Начните с того что определите в каком формате изначальные данные
Офлайн
К сожаленью всё не могу. Может быть слив инфы
Вот, что имеется в хедерах, тобишь всё тот же utf-8:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <meta charset="UTF-8"> </head>
Офлайн
ZerG
Вполне вероятно что у вас изначально данные например в CP866 вы их втягиваете в CP1251 после чего конвертите в UTF-8 другими словами в йуникод вам уже идет изначально битая абракадабра! Начните с того что определите в каком формате изначальные данные
Офлайн
Копать дальше. Мы не понимаем что у вас происходит - как же мы вам поможем?
Исключить другую программу - парсить сайт напрямую питоном
попробовать на питоне принимать изначально от программы в другой кодировке.
Стопиццот вариантов! Но учитывая предоставленные вами данные ето пальцем в небо
Офлайн