Основы японских многобайтовых кодировок
Японские символы представляются только в многобайтовых кодировках,
и многие стандарты кодирования зависят от платформы и назначения текста.
Осложняет ситуацию то, что эти стандарты содержат незначительные отличия.
Чтобы создать веб-приложение, которое будет правильно работать в японском окружении,
разработчику потребуется учитывать эти сложности, чтобы гарантировать отображение
или передачу символов в правильных кодировках.
-
Один символ занимает в памяти до шести байтов.
-
Бо́льшая часть японских многобайтовых символов выглядит в 2 раза шире,
чем однобайтовые символы. Такие символы по-японски
называются zen-kaku что означает «полноширинный».
Другие, более узкие символы называются han-kaku, что означает
«полуширинные». Конкретные графические свойства символов зависят
от шрифта, которым они отображаются.
-
В отдельных кодировках символов карту кодов конкретной области кодов —
в диапазоне от
00
до 7f
в шестнадцатеричной форме —
изменяют последовательностями сдвига — escape-последовательностями,
которые определяет стандарт ISO-2022.
-
При сетевом обмене по протоколам SMTP и NNTP японские символы передают в кодировке ISO-2022-JP;
заголовки HTTP-сообщения, а также заголовки и тело полезной нагрузки HTTP-сообщения перекодируют по правилам RFC-стандартов.
Даже если перекодировка не нужна, она всё же не помешает, поскольку отдельные
популярные пользовательские агенты не умеют распознавать другие методы кодирования.
-
Веб-страницам для служб мобильной связи наподобие
» i-mode
и » EZweb
требуется кодировка Shift_JIS.
-
Службы мобильной связи наподобие » i-mode
и » EZweb поддерживают
эмодзи.