JIS X 0208

JIS X 0208 は 規格番号です。名称は「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」です。7ビット2バイトまたは8ビット2バイトであらわされる6,879の図形文字の集合(文字セット)を定めています。

この文字セットは10進数で1から94の2組の数で文字の登録位置を決めています。この数の1つ目を区、2つ目を点と呼ぶので、区点コードと呼ばれます。1978年に制定され、1983、1990、1997年に改正されています。

文字セット

区点の表の一部です。「」は4区2点、「」16区1点に登録されています。

JIS X 0208 の区点の表(一部)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ...
2022 21 22 23 24 25 26 27 28 29 2A 2B 2C 2D 2E 2F ...
121   , . : ; ? ! ´ ` ¨ ...
222
323
424 ...
525 ...
626 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο ...
727 А Б В Г Д Е Ё Ж З И Й К Л М Н ...
828 ...
929
102A
112B
122C
132D
142E
152F
1630 ...
1731 ...
1832 ...
...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

エンコーディング

使用するときはこれにある計算を施して使います。この場合 区点に登録された文字全体を文字セット、計算のきまりをエンコーディングといいます。

Shift_JIS, EUC-JPなどはこのエンコーディングの種類です。

ISO-2022-JP, Shift_JIS, EUC-JP は JIS X 0208 を元に作られたエンコーディング方式です。

JIS X 0208 のエンコーディング
方式 操作 「あ」 「亜」
区点 そのまま 4区2点 16区1点
区点(16進数) それぞれ2桁、計4桁に 0402 1001
ISO-2022-JP 0x2020を加える 2422 3021
Shift_JIS 複雑なので省略 82A0 889F
EUC-JP 0xa0a0を加える A4A2 B0A1

亜の近辺の一覧。2022(ISO-2022-JP)、SJIS(Shift_JIS)、EUC(EUC-JP)は区-点を元に変換しているので区点で隣り合う文字は他のエンコーディングでもほぼ隣り合います。それに対して、Unicode系の UTF-16 と UTF-8 では一般には隣り合いません。

いろいろなエンコードの比較(亜の近辺)
JIS Unicode
区-点2022SJISEUCUTF-16UTF-8文字
16-13021889FB0A14E9C E4BA9C
16-2302288A0B0A25516 E59496
16-3302388A1B0A35A03 E5A883
16-4302488A2B0A4963F E998BF
16-5302588A3B0A554C0 E59380
16-6302688A4B0A6611B E6849B
16-7302788A5B0A76328 E68CA8
16-8302888A6B0A859F6 E5A7B6
16-9302988A7B0A99022 E980A2
16-10302a88A8B0AA8475 E891B5
16-11302b88A9B0AB831C E88C9C
16-12302c88AAB0AC7A50 E7A990
16-13302d88ABB0AD60AA E682AA
16-14302e88ACB0AE63E1 E68FA1
16-15302f88ADB0AF6E25 E6B8A5

JIS X 0208の全体です。空いているところは将来の追加のためでした。黄色の部分はその追加された部分です。

94×94の表です。漢字の前後が空き領域になっています。