Форум сайта python.su
ZZZты сам себе противоречишьo7412369815963И снова неправда. :-)
но лучше utf8 всегда и везде
ZZZ
Я о том, что использовать надо только utf-8. Всегда и везде.
ZZZдля этого в питоне есть уникод
В некоторых случаях UTF-16 куда эффективнее – по два байта на символ куда легче обрабатывать, чем символы переменной длины.
Офлайн
ZZZ
что касательно иероглифов так я по сей день не могу подключить чтоб в браузере обрисовывалось :) глупячие морские_обезьяны :)
Офлайн
что касательно иероглифов так я по сей день не могу подключить чтоб в браузере обрисовывалосьШрифт юникодный установи, например Bitstream Cyberbit, если не охота для каждого в языка отдельный шрифт тянуть.
Офлайн
o7412369815963Нет. Просто для разных вещей – разные кодировки.
ты сам себе противоречишь
sypper-pitВсё. Снова сплю. :-)
а вообще, харе придираться :-)
Офлайн
ZZZа как насчет буквы “й” в UTF-16? Ничё что она 4х байтная?o7412369815963И снова неправда. :-)
но лучше utf8 всегда и везде
В некоторых случаях UTF-16 куда эффективнее – по два байта на символ куда легче обрабатывать, чем символы переменной длины.
А про набор иероглифов в UTF-32 я вообще молчу…
Офлайн
bialix>>> u'й'.encode('utf-16')
а как насчет буквы “й” в UTF-16? Ничё что она 4х байтная?
Отредактировано (Апрель 1, 2010 15:27:40)
Офлайн
bialixЕсли отбросить BOM то будет 2 байта:
а как насчет буквы “й” в UTF-16? Ничё что она 4х байтная?
>>> u'й'.encode('utf_16_le')
'9\x04'
Отредактировано (Апрель 1, 2010 17:49:24)
Офлайн
bialix, я думаю, что не стоит объяснять тебе, как строятся символы в UTF-16 (32)…
Да, обработку составных символов всё равно придётся делать, но это всё равно лучше, чем UTF-8, потому что составные символы состоят из символов, длина которых постоянна и равняется двум байтам.
Ну и, как подметил MapaT, BOM.
Офлайн