Ляо Чжай ([info]quappa) wrote,
@ 2008-06-22 20:16:00
Previous Entry  Add to memories!  Share this!  Next Entry
Entry tags:email, gmail, i18n, pochta.ru, rambler, yandex

Русский язык, gmail и ISO-2022-JP
Багофича gmail-а, о которой david_m писал больше трёх лет назад, никуда не делась. Свежая манифестация, например, здесь у Соттовоче. Чуть-чуть поразбиравшись имею сказать вот что.

Gmail подбирает наиболее простую кодировку для каждого исходящего письма. В частности, для русских букв простой кодировкой у него считается koi8-r (оставим это на совести ache). Но он всё-таки слишком умный и иногда выбирает кодировку ISO-2022-JP для исходящих русских писем с буквами, которых нет в koi8-r (например, некоторые типографские символы или европейская диакритика), вместо UTF-8 (а иногда выбирает UTF-8, и закономерность выявить не удалось). В принципе, он в своём праве, так как кириллица там вся присутствует, но а) не все неяпонские программы готовы воспринять такую кодировку, особенно в неожиданных местах, б) некоторые антиспам-фильтры за пределами Японии оштрафуют такое письмо за его потенциальную непрочитываемость получаетелем. В частности, SpamAssassin на nic.ru цепляет на такие письма 2.5 балла за «charset indicates foreign language». А через него проходят письма клиентов Руцентра, которым всем привет, кстати.

Из неяпонских почтовиков, которые решительно не понимают письма в ISO-2022-JP, стоит назвать mail.ru. Рамблер с Яндексом показывают такие письма идеально (как будто они в UTF-8), а Почта.Ру — достаточно хорошо (показывает русские буквы, но не иероглифы).

Актуальной эта проблема может оказаться для недавно отказавшихся от собственного движка в пользу Gmail-а mail.li.ru. Юзеры-то у них в основном русские.



(14 comments) - (Post a new comment)


[info]prosto_ya
2008-06-22 04:21 pm UTC (link)
Ссылку на меня немного напрасно дал - там под замком и увидят единицы. :-(

Но в целом, спасибо, что помог разобраться в проблемах.

(Reply to this)


[info]salas
2008-06-22 04:30 pm UTC (link)
Спасибо, моя картина мира пополнилась. Но осталась необъяснимой: если уж оценивать простоту кодировок (что бы это ни значило), то как ISO-2022-JP может оказаться лучше UTF-8?

(Reply to this) (Thread)


[info]quappa
2008-06-22 04:35 pm UTC (link)
а) Она старше и следовательно лучше поддерживается (японским) софтом. б) Она содержит гораздо меньше символов и требует более простых шрифтов.

Судя по воплям японцев в Интернетах, у них полным полно программ, которые не понимают UTF-8.

(Reply to this) (Parent)(Thread)


[info]salas
2008-06-22 04:48 pm UTC (link)
А, понятно. Хотя, конечно, могли бы разбирать отдельно хотя бы письма, не содержащих ни одного иероглифа.

Кстати, насколько я помню, на том ISO-2022-JP, который выдаёт гугл, iconv (напущенный на вырезанный из мейлбокса руками текст письма) временами спотыкается, так что дискуссия по ссылке о некошерности вебмейлов, не использующих iconv, не совсем по делу.

(Reply to this) (Parent)

(Reply from suspended user)

[info]dolphin278
2008-06-22 04:34 pm UTC (link)
изменение кодировки происходит вне зависимости от того, что стоит в настройках "outgoing message encoding"?

(Reply to this) (Thread)


[info]quappa
2008-06-22 04:35 pm UTC (link)
Не проверил, но тогда это был бы просто баг.

(Reply to this) (Parent)


[info]meatreach
2008-06-22 04:47 pm UTC (link)
Довольно неприятно то, что среди неяпонских программ оказался Outlook. Письма из гмейла в японской кодировке он показывает очень криво. Сначала открывает зюкалки, а если явно указать ему кодировку, то показывает русские буквы, но с кривым форматированием.

(Reply to this) (Thread)


[info]quappa
2008-06-22 04:49 pm UTC (link)
Ну это уже совсем какой-то баг -- гмейл указать название кодировки всё-таки не забывает.

(Reply to this) (Parent)(Thread)


[info]meatreach
2008-06-22 05:17 pm UTC (link)
Он это делает как-то криво, видимо. Я не разбирался, хедеры не смотрел - но это постоянная головная боль, регулярно в гмейловских письмах случается.

(Reply to this) (Parent)


[info]david_m
2008-06-22 07:00 pm UTC (link)
Там японским дело не ограничивается:) Но всё-таки, это скорее фича чем бага, и она фиксится в настройках gmail.

Возможно, тут Япония сама по себе и не виновата — просто юв-азия не особо жалует юникод, предпочитая самостийные кодировки, и при этом мультибайтные кодировки реально _необходимы_ только там. Вероятно, Гугл решил пойти по пути наибольшей совместимости по умолчанию.

Не знаю, в каких отношениях лирушники с гуглом, но, возможно, они могут как-то выставлять utf-8 в настройках по умолчанию при регистрации гугл-аккаунта. Ну, или с гуглом договориться на правах оптового клиента — наверняка это возможно.

(Reply to this) (Thread)


[info]quappa
2008-06-22 07:19 pm UTC (link)
Спасибо! Картина вырисовывается неприглядная -- вероятно при подборе кодировки у них UTF-8 стоит в самом конце как запасной вариант, но при этом набор "промежуточных" кодировок общий для всех языков и весьма куцый, так как кавычки-ёлочки, номер и все русские буквы есть, например, в windows-1251.

(Reply to this) (Parent)


[info]david_m
2008-06-22 07:06 pm UTC (link)
А ещё мерзко наябедничаю на ukr.net и старый (и единственный в Y-Россия) интерфейс почты Яху. У них тоже проблемы с пониманием UTF-8.

(Reply to this)

(Reply from suspended user)

(14 comments) - (Post a new comment)

Create an Account
Forgot your login or password?
Log in with OpenID
English • Español • Deutsch • Русский…