文字コードを整理する

大きく分けてJIS規格を元にした漢字コードとUnicodeの２つに分けられます。

JIS規格の変遷

US-ASCII(より正確にはISO/IEC 646)に基づく英数字といわゆる半角カナを定めたものが JIS X 0201。漢字を第２水準まで約7000文字を定めた JIS X 0208。第３水準、第４水準までを加え約11000文字に拡張した JIS X 0213 と大づかみにしておきます。現在は0208から0213への過渡期になっています。

JIS規格番号	制定年/ 最近の改訂年	説明	文字数
JIS X 0201	1969	制定時の規格番号はJIS C 6220。US-ASCIIとほとんど同じ英数字と、いわゆる半角カナからなる。(制御文字はJIS X 0211)。7ビットまたは8ビット使用。	160文字 (制御文字と未定義を合わせて256)
JIS X 0208	1978/1997	非漢字(記号、ラテン文字、平仮名など)524文字、第1,第2水準漢字 6,355文字。１から94までの区と１から94までの点を使い文字「亜」は16区1点と表現する。94 × 94 = 8,836個の文字が登録可能である。	6,879文字
JIS X 0212	1990	JIS X 0208に含まれない文字を補助として規定したが、問題ありとして現在の位置づけは明記されていない。JIS X 0213を使用することが推奨される。	6,067文字
JIS X 0213	2000/2004	JIS X 0208を拡張し、第三・第四水準漢字などを加えた上位集合である。JIS X 0212とは互換性を持たない。 JIS X 0208の未使用領域に非漢字659字及び第三水準1259字を入れて第一面とし、第四水準の文字を第二面として加えた。これで「亜」は1面16区1点(1-16-1)と表現する。	JIS X 0208に4,354字が追加され、計11,233文字

Shift_JIS, EUC-JPなどはJISの文字セットを元にしている

JIS X 0201 の時代はそのまま規格で割り当てられた数字が文字コードでしたが、JIS X 0208 以降はこれを元にしていくつかの文字コードが作られています。JIS X 0208の区点コードにある計算を施せばそれぞれの文字コードになるというもので、この場合はJIS X 0208 を文字セット、計算のきまりをエンコーディングといいます。

Shift_JIS, EUC-JPなどはこのエンコーディングの種類です。

ISO-2022-JP, Shift_JIS, EUC-JP は JIS X 0208 を元に作られたエンコーディング方式です。すべて区点の数値から計算できます。JIS X 0213 に対する換算もほぼ決まっています。

方式	操作	「あ」
区点	そのまま	4区2点
ISO-2022-JP	0x2020を加える	2422
Shift_JIS	複雑なので省略	82A0
EUC-JP	0xa0a0を加える	A4A2

亜の近辺の一覧。2022(ISO-2022-JP)、SJIS(Shift_JIS)、EUC(EUC-JP)は区-点を元に変換しているので区点で隣り合う文字は他のエンコーディングでもほぼ隣り合う。それに対して、Unicode系の UCS-2 と UTF-8 では一般には隣り合わない。

区-点	2022	SJIS	EUC	UCS-2	UTF-8	GLYPH
16-1	3021	889F	B0A1	4E9C	E4BA9C	亜
16-2	3022	88A0	B0A2	5516	E59496	唖
16-3	3023	88A1	B0A3	5A03	E5A883	娃
16-4	3024	88A2	B0A4	963F	E998BF	阿
16-5	3025	88A3	B0A5	54C0	E59380	哀
16-6	3026	88A4	B0A6	611B	E6849B	愛
16-7	3027	88A5	B0A7	6328	E68CA8	挨
16-8	3028	88A6	B0A8	59F6	E5A7B6	姶
16-9	3029	88A7	B0A9	9022	E980A2	逢
16-10	302a	88A8	B0AA	8475	E891B5	葵
16-11	302b	88A9	B0AB	831C	E88C9C	茜
16-12	302c	88AA	B0AC	7A50	E7A990	穐
16-13	302d	88AB	B0AD	60AA	E682AA	悪
16-14	302e	88AC	B0AE	63E1	E68FA1	握
16-15	302f	88AD	B0AF	6E25	E6B8A5	渥

UTF-8, UCS-2はUCS/Unicodeの文字セットを元にしている

UCS/Unicodeの漢字部分は中国や韓国で使われている漢字と合わせて配置したため、JIS X 0213 とまったく異なる表になっており、換算はできません。対応表を見るしかなくなっています。（しかも記号については複数の対応が考えられて混乱しています）

UCS/Unicode 自体もさまざまな事情のため複雑なのですが、ここでは JIS X 0213 との文字セットの違いを認識してください。

ただし日本で使用する漢字はJISを元にUnicodeに登録しているためJISにある文字はすべて登録されています。

また、UCS/Unicode(正確にはISO/IEC 10646)を翻訳してJISとして定めた JIS X 0221 もあります。このような規格を国際一致規格といいます。JIS X 0221の規格名称は「国際符号化文字集合（UCS)」といいます。UCS/Unicode と JIS規格との関係もまたさまざまな事情を含んでいます。

UCS-2の順に並べた亜の近辺の一覧。UTF-8はUCS-2を元にしたエンコード方式なので順番になっています。しかし、区点とそれを元にした 2022(ISO-2022-JP)、SJIS(Shift_JIS)、EUC(EUC-JP)は順番がばらばらです。空欄は中国や韓国の漢字のためJISに定められていない漢字です。

UCS-2	UTF-8	区-点	2022	SJIS	EUC	GLYPH
4E91	E4BA91	17-30	313E	895D	B1BE	云
4E92	E4BA92	24-63	385F	8CDD	B8DF	互
4E93	E4BA93					亓
4E94	E4BA94	24-62	385E	8CDC	B8DE	五
4E95	E4BA95	16-70	3066	88E4	B0E6	井
4E96	E4BA96					亖
4E97	E4BA97					亗
4E98	E4BA98	47-43	4F4B	986A	CFCB	亘
4E99	E4BA99	47-42	4F4A	9869	CFCA	亙
4E9A	E4BA9A					亚
4E9B	E4BA9B	26-19	3A33	8DB1	BAB3	些
4E9C	E4BA9C	16-01	3021	889F	B0A1	亜
4E9D	E4BA9D	48-19	5033	98B1	D0B3	亝
4E9E	E4BA9E	48-20	5034	98B2	D0B4	亞
4E9F	E4BA9F	48-21	5035	98B3	D0B5	亟

聖愛中学高等学校
http://www.seiai.ed.jp/
Aug. 2009