JIS X 0221

JIS X 0221は、日本産業規格 (JIS) の制定している文字コード規格の一つ。規格の名称は「国際符号化文字集合 (UCS)」、ISO/IEC 10646の国際一致規格である。

歴史

本規格の元となるISO/IEC 10646はUnicodeをベースにしばしば改正(補遺の発行等を含む)されている規格であり本規格も初版が1995年(平成7年)に制定された後、ISO/IEC 10646本体の改正に合わせて2001年(平成13年)及び2007年(平成19年)に改正されている。それぞれの版の規格番号、制定・改正日および対応するISO規格の規格番号、制定・改正日は以下の通りである。

JIS番号 JIS制定・改正日 ISO規格番号 ISO制定・改正日 対応するUnicodeのバージョン
第1次規格 JIS X 0221:1995 1995年1月1日制定 ISO/IEC 10646-1:1993 1993年制定 Unicode 1.1
第2次規格 JIS X 0221-1:2001 2001年4月20日制定 ISO/IEC 10646-1:2000 2000年改正 Unicode 3.0
第3次規格 JIS X 0221:2007 2007年12月20日制定 ISO/IEC 10646:2003 2003年制定 Unicode 5.0
第4次規格 JIS X 0221:2014 2014年6月20日改正 ISO/IEC 10646:2012 2012年改正 Unicode 6.1

それぞれの版のJIS はそれぞれの制定時点での最新のISOの内容を反映したものであり、正誤表などの内容を反映しているだけでなく、第3次規格のJIS X 0221:2007は、ISO/IEC 10646:2003の内容を反映しているのに加えて2005年(平成17年)制定の補追1及び2006年(平成18年)制定の補追2に相当する内容を含んでいる。但し規格群全体で見ると第1次規格については1996年(平成8年)3月1日に「TECHNICAL CORRIGENDUM 1」が、第2次規格については2001年(平成13年)11月1日に「ISO/IEC 10646-2:2001 UCS -- Part 2: Supplementary Planes」が、第3次規格については2008年(平成20年)2月15日に「ISO/IEC 10646:2003/Amd.3 Lepcha, Ol Chiki, Saurashtra, Vai and other characters」がそれぞれ制定されたためそれ以降はJISとISOの最新版とは内容的には一致しないことになる。

当初、国際符号化文字集合の規格全体は、内容が膨大なものとなり、規格全体を一冊の規格票にまとめるのは現実的ではないと考えられていたため、一つの規格で全てを定めるのではなく複数の規格群によって構成されることを予定していた。なお、JISの第1次規格において部編成を示す枝番がなかったのは当時JISの側にそのような方法が定められていなかったためであり部編成にすること自体は予定されていたと第2次規格の規格票の解説において説明されている。ISO/IEC 10646については実際に2001年(平成13年)11月1日に規格群を構成する追加規格であるISO/IEC 10646-2:2001「国際符号化文字集合(UCS) - 第2部 追加多言語面」が制定されている(この規格だけに対応するJISは制定されなかった)。その後、規格の内容の大きな部分を占めるコードと文字の対応関係を定めた部分などをCD-ROM化して規格票に収めることが可能になり、第3次規格においては国際符号化文字集合の規格全体を一つの規格として定めることになった。そのため、第2次規格までの規格の名称は「国際符号化文字集合(UCS) - 第1部 体系及び基本多言語面」となっている。また規格票の頁数は、第1次規格では全体で1036頁(うち解説149頁)、第2次規格では全体で1236頁(うち解説151頁)であったものが第3次規格では全体で166頁(うち解説21頁)、第4次規格では全体で178頁(うち解説27頁)となっている。

この規格のように、規格の「改正」にあたって規格番号の末尾の「-1」が付いたり取れたりするような「部編成が変わる」場合、内容的(実質的)には改正であっても形式的には前の規格を廃止し、新たな規格を制定したとして扱うように定められている。そのため、本規格においては第2次規格および第3次規格は形式的にはそれぞれ前の規格の改正ではなく新たな規格を制定したことになっている。但し本規格の第2次規格以降の規格票の解説においては上記の説明を行った上で規格の内容の変遷については「改正」として説明を加えている。

日本文字部分レパートリ

付属書JAにおいて、以下の6つのレパートリを規定している[1]

組番号 名前(レパートリ名) レパートリ名称 総文字数 JIS X 0208
漢字
JIS X 0212
漢字
JIS X 0213
漢字
285 BASIC JAPANESE 基本日本文字集合 6884 6355 0 6355
371 JIS2004 IDEOGRAPHICS EXTENSION JIS2004拡張漢字集合 3695 0 2743 3695
372 JAPANESE IDEOGRAPHICS SUPPLEMENT 補助漢字集合 5801 0 5801 2743
286 JAPANESE NON IDEOGRAPHICS EXTENSION 拡張非漢字集合 631 0 0 0
287 COMMON JAPANESE 通用日本文字集合 609 0 279 276
JAPANESE NON IDEOGRAPHICS SUPPLEMENT 追加非漢字集合 1457 0 0 0

補足

  • BASIC JAPANESEに含まれるJIS X 0208漢字の数は参考資料では6356文字となっているが、「JIS X 0208#漢字集合」に記載の漢字数に合わせる。
  • COMMON JAPANESEの総文字数は、COMMON JAPANESE(BASIC JAPANESE含む)の7493文字[2]からBASIC JAPANESEの6884文字を引いた数。
  • JIS2004 IDEOGRAPHICS EXTENSIONとJAPANESE IDEOGRAPHICS SUPPLEMENTは2742文字を共有している[2]
  • 日本文字部分レパートリのうち、BASIC JAPANESE 及び COMMON JAPANESE は、それぞれを単独で又は他の日本文字部分レパートリと組み合わせて用いることを意図している[2]
  • 通用日本文字集合 (COMMON JAPANESE) にだけ含まれる漢字は34文字[3]JIS X 0213、JIS X 0212に含まれない漢字を参照。
  • 」はJIS X 0208またはJIS X 0213では記号として扱われているがUnicodeでは漢字としての扱いである。
  • JIS X 0212とJIS X 0213でUCS符号が一致しない文字がある。
日本文字部分レパートリの組み合わせ
レパートリの組み合わせ BASIC JAPANESE JIS2004 IDEOGRAPHICS EXTENSION JAPANESE IDEOGRAPHICS SUPPLEMENT JAPANESE NON IDEOGRAPHICS EXTENSION COMMON JAPANESE JAPANESE NON IDEOGRAPHICS SUPPLEMENT
単独1
単独2
組み合わせ1
組み合わせ2
組み合わせ3
組み合わせ4
組み合わせ5
組み合わせ6

概要と履歴

Unicodeでは任意の部分集合による実装が認められているため[4]、送信した文字を受信側が正しく表示できる保証はまったくない。これに対してISO/IEC 2022では、適合を主張する実装は文字集合に対して1文字たりとも追加・削除・変更が許されないため[5]、文字集合に含まれる文字すべてを扱えることが保証される。この問題を補うため、ISO/IEC 10646では特定用途でよく使われる文字を集め、適合を主張する実装に対して構成する文字すべての実装を義務づける「組」(: collection)を規定している。

しかしISO/IEC 10646には欧州で使われる文字を集めたMESなどの組はあるものの、日本語でよく使われる文字を集めた組は規定されていなかった。このためJIS X 0221では「日本文字部分レパートリ」という名の附属書を追加し、日本語でよく使われる文字を制限部分集合として独自に定めている。第1次規格では附属書1に以下の7種類を規定していた。

基本日本文字集合 (BASIC JAPANESE)
ISO/IEC 646国際基準版、JIS X 0201JIS X 0208に含まれる文字。
追加非漢字集合 (JAPANESE NON IDEOGRAPHICS SUPPLEMENT)
JIS X 0212の非漢字および日本語で使われる記号類。
追加漢字集合 (JAPANESE IDEOGRAPHICS SUPPLEMENT 1)
JIS X 0212の漢字のうち日本語での使用頻度が高いもの。
補助漢字集合 (JAPANESE IDEOGRAPHICS SUPPLEMENT 2)
JIS X 0212の漢字のうち追加漢字集合に含まれなかったもの。
その他の漢字集合 (JAPANESE IDEOGRAPHICS SUPPLEMENT 3)
CJK統合漢字 (URO) のうち基本日本文字集合、追加漢字集合、補助漢字集合のいずれにも含まれないものすべて。
互換用全角英数字集合 (FULLWIDTH ALPHANUMERIC)
いわゆる全角英数。
互換用半角片仮名集合 (HALFWIDTH KATAKANA)
いわゆる半角カナ

第2次規格ではレパートリの内容に変更はないが、JIS X 0221がISO/IEC 10646の国際一致規格であることとの整合性の問題を受け、附属書1は規定から参考に格下げされた。

第3次規格では附属書1は附属書JAに変更されて基本日本文字集合と追加非漢字集合以外のレパートリは廃止され、代わりに以下の4つが追加された。

JIS2004拡張漢字集合 (JIS2004 IDEOGRAPHICS EXTENSION)
JIS X 0213で拡張された漢字。
補助漢字集合 (JAPANESE IDEOGRAPHICS SUPPLEMENT)
JIS X 0212の漢字すべて。改正前の追加漢字集合と補助漢字集合を併合したもの。
拡張非漢字集合 (JAPANESE NON IDEOGRAPHICS EXTENSION)
JIS X 0213で拡張された非漢字。ただし符号位置の並びを要素として含む組を規定することはできないため[6]アイヌ語用の半濁点付き仮名や声調の上下動を表す記号などの合成が必要な非漢字はこのレパートリに含まれていない。
通用日本文字集合 (COMMON JAPANESE)
マイクロソフト標準キャラクタセットのUnicodeによる実装を事実上追認するもの。

これらは、ISO/IEC 10646:2003の追補2までの内容しか含まないJIS X 0221の第3次規格では依然として参考扱いであるが、追加非漢字集合以外の5つは2008年(平成20年)に制定されたISO/IEC 10646:2003の追補3で組として追加された[7]

注釈・出典

  1. ^ JIS X 0221 漢字データベースプロジェクト
  2. ^ a b c JIS X 0221:2014 国際符号化文字集合(UCS)
  3. ^ スラド COMMON JAPANESE にだけ含まれる漢字
  4. ^ The Unicode Consortium (2006-11-03). The Unicode Standard, Version 5.0. Addison-Wesley Professional. p. 61. ISBN 978-0-321-48091-0. http://www.unicode.org/versions/Unicode5.0.0/ch02.pdf#G1750 
  5. ^ 7ビット及び8ビットの2バイト情報交換用符号化漢字集合 解説. 日本規格協会. (1997-01-20). p. 375 
  6. ^ “Extended Collection definition” (2006年4月27日). 2008年4月27日閲覧。
  7. ^ Information technology -- Universal Multiple-Octet Coded Character Set (UCS) -- Amendment 3: Lepcha, Ol Chiki, Saurashtra, Vai and other characters. (2008-02-15). pp. 6-9. http://standards.iso.org/ittf/PubliclyAvailableStandards/c044871_ISO_IEC_10646_2003_Amd_3_2008(E).zip 

関連項目

外部リンク

  • JISC 日本産業標準調査会 - JIS本文を閲覧できる。
日本語用の
文字コード
JIS規格
符号化文字集合
文字符号化方式
文字一覧
JIS以外の公規格
メーカーの規格
符号化文字集合
文字符号化方式
日本語を含む
多言語文字集合
Unicode
ISO/IEC 10646
JIS X 0221
文字符号化方式
文字一覧
TRONコード
日本語以外用の
文字集合
初期の文字コード
ISO/IEC 8859
書誌用
  • ISO 5426
  • ISO 5426-2
  • ISO 5427
  • ISO 5428
  • ISO 6438
  • ISO 6861
  • ISO 6862
  • ISO 9036
  • ISO 10585
  • ISO 10586
  • ISO 10754
  • ISO 11822
  • ANSEL
  • MARC-8
国家標準
EUC
ISO/IEC 2022
  • ISO/IEC 2022 CN
  • ISO/IEC 2022 KR
  • CCCII
MacOS
コードページ
  • Macintosh Standard Roman Character Set
  • アラビア語
  • CentralEurRoman
  • EUC-CN
  • Big5
  • クロアチア語
  • キリル
  • デーヴァナーガリー
  • Dingbats
  • ペルシャ語
  • ギリシア語
  • グジャラート語
  • グルムキー
  • ヘブライ語
  • アイスランド語
  • EUC-KR
  • ルーマニア語
  • MacSymbol
  • TIS-620
  • トルコ語
  • ウクライナ語
DOS
コードページ
  • 437
  • 720
  • 737
  • 775
  • 850
  • 852
  • 855
  • 857
  • 858
  • 860
  • 861
  • 862
  • 863
  • 864
  • 865
  • 866
  • 869
  • KOI8
  • Kamenicky
  • Mazovia
  • MIK
  • Iran System
Windows
コードページ
EBCDIC
コードページ
  • 37
  • 293(英語版)
  • 300(英語版)
  • 310(英語版)
  • 351(英語版)
  • 353(英語版)
  • 355(英語版)
  • 357(英語版)
  • 358(英語版)
  • 359(英語版)
  • 360(英語版)
  • 819
  • 930(英語版)
  • 933(英語版)
  • 939(英語版)
  • 1364(英語版)
  • 1390(英語版)
  • 1399(英語版)
  • 8859(英語版)
その他標準
記号用
プラットフォーム
固有
  • ATASCII
  • CDC display code
  • DEC Radix-50
  • Fieldata
  • GSM 03.38
  • HP roman8
  • PETSCII
  • TI calculator character sets
  • ZX Spectrum character set
ソフトウェア
区分け
概念
関連トピック
カテゴリ カテゴリ
  • 表示
  • 編集
スタブアイコン

この項目は、文字文字学に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています(P:文字)。

  • 表示
  • 編集