DjangoBB LoFi version

Найти - Пользователи

Полная версия: статья "Кодировки в python"

Начало » Флейм » статья "Кодировки в python"

1 2 3

o7412369815963

Март 30, 2010 16:04:42

ZZZ
o7412369815963
но лучше utf8 всегда и везде
И снова неправда. :-)

ты сам себе противоречишь

ZZZ
Я о том, что использовать надо только utf-8. Всегда и везде.

ZZZ
В некоторых случаях UTF-16 куда эффективнее – по два байта на символ куда легче обрабатывать, чем символы переменной длины.

для этого в питоне есть уникод

а вообще, харе придираться :)

sypper-pit

Март 31, 2010 06:50:07

ZZZ
что касательно иероглифов так я по сей день не могу подключить чтоб в браузере обрисовывалось :) глупячие морские_обезьяны :)

.Serj.

Март 31, 2010 08:24:09

что касательно иероглифов так я по сей день не могу подключить чтоб в браузере обрисовывалось

Шрифт юникодный установи, например Bitstream Cyberbit, если не охота для каждого в языка отдельный шрифт тянуть.

И вообще http://idn.icann.org/Fonts

ZZZ

Март 31, 2010 08:39:29

o7412369815963
ты сам себе противоречишь

Нет. Просто для разных вещей – разные кодировки.
Но за однобайтные нужно предавать анафеме и сжигать на кострах за багохульство! (с) ZZZ

sypper-pit
а вообще, харе придираться :-)

Всё. Снова сплю. :-)

bialix

Апрель 1, 2010 15:06:52

ZZZ
o7412369815963
но лучше utf8 всегда и везде
И снова неправда. :-)
В некоторых случаях UTF-16 куда эффективнее – по два байта на символ куда легче обрабатывать, чем символы переменной длины.
А про набор иероглифов в UTF-32 я вообще молчу…

а как насчет буквы “й” в UTF-16? Ничё что она 4х байтная?

o7412369815963

Апрель 1, 2010 15:23:48

bialix
а как насчет буквы “й” в UTF-16? Ничё что она 4х байтная?

>>> u'й'.encode('utf-16')
'\xff\xfe9\x04'
>>> len(u'й'.encode('utf-16'))
4
>>> len(u'а'.encode('utf-16'))
4
>>> u'а'.encode('utf-16')
'\xff\xfe0\x04'

и не только “й”

MapaT

Апрель 1, 2010 17:43:29

bialix
а как насчет буквы “й” в UTF-16? Ничё что она 4х байтная?

Если отбросить BOM то будет 2 байта:

>>> u'й'.encode('utf_16_le')
'9\x04'

ZZZ

Апрель 1, 2010 19:06:23

bialix, я думаю, что не стоит объяснять тебе, как строятся символы в UTF-16 (32)…
Да, обработку составных символов всё равно придётся делать, но это всё равно лучше, чем UTF-8, потому что составные символы состоят из символов, длина которых постоянна и равняется двум байтам.
Ну и, как подметил MapaT, BOM.