o7412369815963
Март 30, 2010 16:04:42
ZZZ
o7412369815963
но лучше utf8 всегда и везде
И снова неправда. :-)
ты сам себе противоречишь
ZZZ
Я о том, что использовать надо только utf-8. Всегда и везде.
ZZZ
В некоторых случаях UTF-16 куда эффективнее – по два байта на символ куда легче обрабатывать, чем символы переменной длины.
для этого в питоне есть уникод
а вообще, харе придираться :)
sypper-pit
Март 31, 2010 06:50:07
ZZZ
что касательно иероглифов так я по сей день не могу подключить чтоб в браузере обрисовывалось :) глупячие морские_обезьяны :)
.Serj.
Март 31, 2010 08:24:09
что касательно иероглифов так я по сей день не могу подключить чтоб в браузере обрисовывалось
Шрифт юникодный установи, например Bitstream Cyberbit, если не охота для каждого в языка отдельный шрифт тянуть.
И вообще
http://idn.icann.org/Fonts
ZZZ
Март 31, 2010 08:39:29
o7412369815963
ты сам себе противоречишь
Нет. Просто для разных вещей – разные кодировки.
Но за однобайтные нужно предавать анафеме и сжигать на кострах за багохульство! (с) ZZZ
sypper-pit
а вообще, харе придираться :-)
Всё. Снова сплю. :-)
bialix
Апрель 1, 2010 15:06:52
ZZZ
o7412369815963
но лучше utf8 всегда и везде
И снова неправда. :-)
В некоторых случаях UTF-16 куда эффективнее – по два байта на символ куда легче обрабатывать, чем символы переменной длины.
А про набор иероглифов в UTF-32 я вообще молчу…
а как насчет буквы “й” в UTF-16? Ничё что она 4х байтная?
o7412369815963
Апрель 1, 2010 15:23:48
bialix
а как насчет буквы “й” в UTF-16? Ничё что она 4х байтная?
>>> u'й'.encode('utf-16')
'\xff\xfe9\x04'
>>> len(u'й'.encode('utf-16'))
4
>>> len(u'а'.encode('utf-16'))
4
>>> u'а'.encode('utf-16')
'\xff\xfe0\x04'
и не только “й”
ZZZ
Апрель 1, 2010 19:06:23
bialix, я думаю, что не стоит объяснять тебе, как строятся символы в UTF-16 (32)…
Да, обработку составных символов всё равно придётся делать, но это всё равно лучше, чем UTF-8, потому что составные символы состоят из символов, длина которых постоянна и равняется двум байтам.
Ну и, как подметил MapaT, BOM.