Форум сайта python.su
На вход в программу поступают строки. (Темы почтовых сообщений)
в 95% их случаев удается перекодировать.
А остальные вызывают эксепшоны в самых неожиданных местах.
Как сделать чтобы после попытки перекодировки строка пусть кракозябрами но
успешно ложилась бы БД, в лог и т.д. ?
Python 2.5
Офлайн
Певно хтось шось ліпше порадить, Але можна repr викликати - мав би помогти
>>> type(repr(u'абракадабра'))
<type 'str'>
>>>
Офлайн
языковой барьер однако..
приходит строка в неизвестной кодировке, а уходить должна в БД в бд utf-8 в логи в koi8-r
в вышесоящую программу в cp1251 через url.
проверку типа я делаю, ошибка возникает при перекодировке либо при побытке положить в бд или в логи или перекодировке в url.
Наиболее частые Ексершены могу выложить попозже.
Офлайн
Очевидный и разумный вариант, это чтобы ваша программа оперировала однообразными строками. Лучше переводить все поступающие извне данные в уникод, работать с уникодом внутри программы, и при сохранение куда-то уже конвертировать в байты в нужной кодировке.
Офлайн
Daevaorn, у топикстартера похоже проблема с тем, что он не знает, в какой кодировке приходит вложение…
Stofelтипа этого возможно:
Как сделать чтобы после попытки перекодировки строка пусть кракозябрами но
успешно ложилась бы БД, в лог и т.д. ?
a=unicode(string,'koi8-r',errors='ignore' ) # или errors='replace'
Офлайн
Можно попробовать chardet (chardet.feedparser.org)
import chardet
from encodings import normalize_encoding
from encodings.aliases import aliases
def decode_message (msg) :
if not isinstance(msg, unicode) :
enc = chardet.detect(msg)['encoding']
enc = aliases[normalize_encoding(enc)]
return msg.decode(enc)
return msg
Отредактировано (Март 29, 2009 15:52:27)
Офлайн
Спасибо за ответы!
Они помогли мне понять что надо все писать заново :)
Офлайн