UTF-7

Unicode
文字符号化スキーム
UTF-7
UTF-8
CESU-8
UTF-16
UTF-32
UTF-EBCDIC
SCSU
Punycode (IDN/IDNA)
GB 18030
その他
UCS
マッピング
書字方向
BOM
漢字統合
UnicodeとHTML
Unicodeと電子メール
Unicodeフォント
表話編歴

UTF-7（ユーティーエフなな、ユーティーエフセブン）はISO/IEC 10646(UCS)とUnicodeで使える7ビット符号単位の文字符号化形式及び文字符号化スキーム。

7ビットでしか送信できない制限があるプロトコル上のメールやニュースなどの環境で、その体系上でUnicodeのメールを送信可能にするために作られた規格である。

現在では正しく実装されていないアプリケーション上でセキュリティー上の脆弱性を発生させることがあることから、あまり使われなくなっている。

IMAP4では、UTF-7を変更した規格である修正UTF-7の規格があり、この規格は2010年代現在においては頻繁に使用される。

機能

62個のアルファベットと9個の記号（' ( ) , - . / : ?）はそのまま表記する。
それ以外の文字はUTF-16のビッグエンディアンで符号化し、修正BASE64で符号化する。修正BASE64とは=を入れないBASE64エンコーディング形式である。
BASE64の文字の前に「+」後ろに「-」を置く。
「+」の文字自体は「+-」で表現する。

例

「Hello, World!」は「Hello, World!」とそのまま表記できる。
「1 + 1 = 2」は「1 +- 1 = 2」になる（「+」は「+-」になる）。
「£1」は「+AKM-1」になる。ポンド記号はU+00A3はBase64で表記する。あまった2ビットは0で埋められる。

Hex digit	0				0				A				3
Bit pattern	0	0	0	0	0	0	0	0	1	0	1	0	0	0	1	1	0	0
Index	0						10						12
Base64-Encoded	A						K						M

変換方法

エンコード

「£†」（U+00A3 U+2020）の場合

`£ ≡ 0x00A3`	`0000 0000 1010 0011`	UTF-16BEによる文字コードのビット表記
`†≡ 0x2020`	`0010 0000 0010 0000`	UTF-16BEによる文字コードのビット表記
`£†`	`0000000010100011 0010000000100000`	文字列「£†」のビット表記(順に連結)
`0000000010100011 0010000000100000`	`000000 001010 001100 100000 001000 00`	上位から6ビット毎の区切りで分割
`000000 001010 001100 100000 001000 00`	`000000 001010 001100 100000 001000 000000`	最下位も6ビットになる様に0で埋める
`000000 001010 001100 100000 001000 000000`	`AKMgIA`	base64の変換表に従いエンコード

デコード

`AKMgIA`	`000000 001010 001100 100000 001000 000000`	base64の変換表に従いデコード
`000000 001010 001100 100000 001000 000000`	`0000000010100011 0010000000100000 0000`	上位から16ビット毎の区切りで分割
`0000000010100011 0010000000100000 0000`	`0000000010100011 0010000000100000`	最下位の0が連続するビット列は削除
`0000 0000 1010 0011`	`0x00A3 ≡ £`	16ビット毎にUTF-16BEの文字コードとして解釈
`0010 0000 0010 0000`	`0x2020 ≡†`	16ビット毎にUTF-16BEの文字コードとして解釈
`0000000010100011 0010000000100000`	`£†`	デコード結果

修正UTF-7

修正UTF-7（Modified UTF-7）はIMAP4で多言語のフォルダ名（ディレクトリ名）を使用するために用いられる規格である。

「&」以外の印字可能なUS-ASCII文字は必ずそのまま表記する。
それ以外の文字はUTF-16のビッグエンディアンで符号化し、修正BASE64で符号化する。
BASE64の文字の前に「&」後ろに「-」を置く。
「&」の文字自体は「&-」で表現する。

この規格は、メールの一般的な利用における、下記のような背景を考慮して導入された。^[1]

UTF-7 は、シフトするために文字 "+" を用いる; これは、メールボックス名やUSENETニュースグループ名での "+" のありふれた使用と衝突する。
UTF-7 の符号化は、文字 "/" を用いる BASE64である; これは、一般的な階層区切りとしての "/" の使用と衝突する。
UTF-7 は、符号化されない "\" の使用を禁じている; これは、一般的な階層区切りとしての "\" の使用と衝突する。
UTF-7 は、符号化されない "~" の使用を禁じている; これは、いくつかのサーバでホームディレクトリを示すものとしての "~" の使用と衝突する。
UTF-7 は、同じ文字列を表現するための、複数の別の形式を許している; 特に、印字可能な US-ASCII 文字が符号化形式で表現され得る。

すなわち修正UTF-7では、電子メールやフォルダ名一般における頻出文字を修正BASE64変換せず、概ね平文のまま読むことが可能になる。

出典

RFC 1642
RFC 2152
RFC 2060（修正UTF-7の規格）

文字コード

日本語用の
文字コード

JIS規格

符号化文字集合	JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 JIS X 0221（日本文字部分レパートリ）
文字符号化方式	ISO-2022-JP EUC-JP Shift_JIS Shift_JISX0213 Shift_JIS-2004 EUC-JISX0213 EUC-JIS-2004 ISO-2022-JP-3 ISO-2022-JP-2004 漢字シフトコード
文字一覧	JIS X 0213非漢字一覧 JIS X 0213漢字一覧の1面 JIS X 0213漢字一覧の2面

JIS以外の公規格

メーカーの規格

符号化文字集合	IBM拡張文字マイクロソフト標準キャラクタセット Adobe-Japan1 iモード絵文字 EZweb絵文字 SoftBank絵文字今昔文字鏡 JIPS EBCDIC GT書体 KEIS IBM漢字システムレコード用文字符号ビブロス外字
文字符号化方式	Microsoftコードページ932 MacJapanese JEF漢字コード U-PRESS

日本語を含む
多言語文字集合

Unicode
ISO/IEC 10646
JIS X 0221

面	基本多言語面追加面追加多言語面追加漢字面第三漢字面追加特殊用途面私用面
文字符号化方式	UTF-8 UTF-16/UCS-2 UTF-32/UCS-4 UTF-7 UTF-EBCDIC GB 18030 SCSU BOCU-1
文字一覧	Unicode一覧 Unicode一覧表 Unicode6.0の携帯電話の絵文字の一覧 UnicodeのEmojiの一覧

TRONコード

TRONコード

日本語以外用の
文字集合

初期の文字コード	ASCII Baudot Code ISO/IEC 646 ISO/IEC 6937 T.61
ISO/IEC 8859	-1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -13 -14 -15 -16
書誌用	ISO 5426 ISO 5426-2 ISO 5427 ISO 5428 ISO 6438 ISO 6861 ISO 6862 ISO 9036 ISO 10585 ISO 10586 ISO 10754 ISO 11822 ANSEL MARC-8
国家標準	ArmSCII CNS 11643 GOST 10859 GB 2312 HKSCS ISCII KPS 9566 KS X 1001 PASCII TIS-620 TSCII VISCII YUSCII KOI8-R KOI8-RU KOI8-U KOI8-T KOI8-CS
EUC	EUC-CN EUC-KR EUC-TW
ISO/IEC 2022	ISO/IEC 2022 CN ISO/IEC 2022 KR CCCII
MacOS コードページ	Macintosh Standard Roman Character Set アラビア語 CentralEurRoman EUC-CN Big5 クロアチア語キリルデーヴァナーガリー Dingbats ペルシャ語ギリシア語グジャラート語グルムキーヘブライ語アイスランド語 EUC-KR ルーマニア語 MacSymbol TIS-620 トルコ語ウクライナ語
DOS コードページ	437 720 737 775 850 852 855 857 858 860 861 862 863 864 865 866 869 KOI8 Kamenicky Mazovia MIK Iran System
Windows コードページ	874 (TIS-620) 936 (GBK) 949 (EUC-KR) 950 (Big5) 1250 1251 1252 1253 1254 1255 1256 1257 1258 1361 54936 (GB18030)
EBCDIC コードページ	37 293（英語版） 300（英語版） 310（英語版） 351（英語版） 353（英語版） 355（英語版） 357（英語版） 358（英語版） 359（英語版） 360（英語版） 819 930（英語版） 933（英語版） 939（英語版） 1364（英語版） 1390（英語版） 1399（英語版） 8859（英語版）
その他標準	モザイク集合
記号用	Symbol Wingdings Webdings
プラットフォーム固有	ATASCII CDC display code DEC Radix-50 Fieldata GSM 03.38 HP roman8 PETSCII TI calculator character sets ZX Spectrum character set