大きく分けてJIS規格を元にした漢字コードとUnicodeの2つに分けられます。
US-ASCII(より正確にはISO/IEC 646)に基づく英数字といわゆる半角カナを定めたものが JIS X 0201。漢字を第2水準まで約7000文字を定めた JIS X 0208。第3水準、第4水準までを加え約11000文字に拡張した JIS X 0213 と大づかみにしておきます。現在は0208から0213への過渡期になっています。
JIS規格番号 | 制定年/ 最近の改訂年 |
説明 | 文字数 |
---|---|---|---|
JIS X 0201 | 1969 | 制定時の規格番号はJIS C 6220。US-ASCIIとほとんど同じ英数字と、いわゆる半角カナからなる。(制御文字はJIS X 0211)。7ビットまたは8ビット使用。 | 160文字 (制御文字と未定義を合わせて256) |
JIS X 0208 | 1978/1997 | 非漢字(記号、ラテン文字、平仮名など)524文字、第1,第2水準漢字 6,355文字。1から94までの区と1から94までの点を使い文字「亜」は16区1点と表現する。94 × 94 = 8,836個の文字が登録可能である。 | 6,879文字 |
JIS X 0212 | 1990 | JIS X 0208に含まれない文字を補助として規定したが、問題ありとして現在の位置づけは明記されていない。JIS X 0213を使用することが推奨される。 | 6,067文字 |
JIS X 0213 | 2000/2004 | JIS X 0208を拡張し、第三・第四水準漢字などを加えた上位集合である。JIS X 0212とは互換性を持たない。 JIS X 0208の未使用領域に非漢字659字及び第三水準1259字を入れて第一面とし、第四水準の文字を第二面として加えた。これで「亜」は1面16区1点(1-16-1)と表現する。 |
JIS X 0208に4,354字が追加され、計11,233文字 |
JIS X 0201 の時代はそのまま規格で割り当てられた数字が文字コードでしたが、JIS X 0208 以降はこれを元にしていくつかの文字コードが作られています。JIS X 0208の区点コードにある計算を施せばそれぞれの文字コードになるというもので、この場合はJIS X 0208 を文字セット、計算のきまりをエンコーディングといいます。
Shift_JIS, EUC-JPなどはこのエンコーディングの種類です。
ISO-2022-JP, Shift_JIS, EUC-JP は JIS X 0208 を元に作られたエンコーディング方式です。すべて区点の数値から計算できます。JIS X 0213 に対する換算もほぼ決まっています。
方式 | 操作 | 「あ」 |
---|---|---|
区点 | そのまま | 4区2点 |
ISO-2022-JP | 0x2020を加える | 2422 |
Shift_JIS | 複雑なので省略 | 82A0 |
EUC-JP | 0xa0a0を加える | A4A2 |
亜の近辺の一覧。2022(ISO-2022-JP)、SJIS(Shift_JIS)、EUC(EUC-JP)は区-点を元に変換しているので区点で隣り合う文字は他のエンコーディングでもほぼ隣り合う。それに対して、Unicode系の UCS-2 と UTF-8 では一般には隣り合わない。
区-点 | 2022 | SJIS | EUC | UCS-2 | UTF-8 | GLYPH |
---|---|---|---|---|---|---|
16-1 | 3021 | 889F | B0A1 | 4E9C | E4BA9C | 亜 |
16-2 | 3022 | 88A0 | B0A2 | 5516 | E59496 | 唖 |
16-3 | 3023 | 88A1 | B0A3 | 5A03 | E5A883 | 娃 |
16-4 | 3024 | 88A2 | B0A4 | 963F | E998BF | 阿 |
16-5 | 3025 | 88A3 | B0A5 | 54C0 | E59380 | 哀 |
16-6 | 3026 | 88A4 | B0A6 | 611B | E6849B | 愛 |
16-7 | 3027 | 88A5 | B0A7 | 6328 | E68CA8 | 挨 |
16-8 | 3028 | 88A6 | B0A8 | 59F6 | E5A7B6 | 姶 |
16-9 | 3029 | 88A7 | B0A9 | 9022 | E980A2 | 逢 |
16-10 | 302a | 88A8 | B0AA | 8475 | E891B5 | 葵 |
16-11 | 302b | 88A9 | B0AB | 831C | E88C9C | 茜 |
16-12 | 302c | 88AA | B0AC | 7A50 | E7A990 | 穐 |
16-13 | 302d | 88AB | B0AD | 60AA | E682AA | 悪 |
16-14 | 302e | 88AC | B0AE | 63E1 | E68FA1 | 握 |
16-15 | 302f | 88AD | B0AF | 6E25 | E6B8A5 | 渥 |
UCS/Unicodeの漢字部分は中国や韓国で使われている漢字と合わせて配置したため、JIS X 0213 とまったく異なる表になっており、換算はできません。対応表を見るしかなくなっています。(しかも記号については複数の対応が考えられて混乱しています)
UCS/Unicode 自体もさまざまな事情のため複雑なのですが、ここでは JIS X 0213 との文字セットの違いを認識してください。
ただし日本で使用する漢字はJISを元にUnicodeに登録しているためJISにある文字はすべて登録されています。
また、UCS/Unicode(正確にはISO/IEC 10646)を翻訳してJISとして定めた JIS X 0221 もあります。このような規格を国際一致規格といいます。JIS X 0221の規格名称は「国際符号化文字集合(UCS)」といいます。UCS/Unicode と JIS規格との関係もまたさまざまな事情を含んでいます。
UCS-2の順に並べた亜の近辺の一覧。UTF-8はUCS-2を元にしたエンコード方式なので順番になっています。しかし、区点とそれを元にした 2022(ISO-2022-JP)、SJIS(Shift_JIS)、EUC(EUC-JP)は順番がばらばらです。空欄は中国や韓国の漢字のためJISに定められていない漢字です。
UCS-2 | UTF-8 | 区-点 | 2022 | SJIS | EUC | GLYPH |
---|---|---|---|---|---|---|
4E91 | E4BA91 | 17-30 | 313E | 895D | B1BE | 云 |
4E92 | E4BA92 | 24-63 | 385F | 8CDD | B8DF | 互 |
4E93 | E4BA93 | 亓 | ||||
4E94 | E4BA94 | 24-62 | 385E | 8CDC | B8DE | 五 |
4E95 | E4BA95 | 16-70 | 3066 | 88E4 | B0E6 | 井 |
4E96 | E4BA96 | 亖 | ||||
4E97 | E4BA97 | 亗 | ||||
4E98 | E4BA98 | 47-43 | 4F4B | 986A | CFCB | 亘 |
4E99 | E4BA99 | 47-42 | 4F4A | 9869 | CFCA | 亙 |
4E9A | E4BA9A | 亚 | ||||
4E9B | E4BA9B | 26-19 | 3A33 | 8DB1 | BAB3 | 些 |
4E9C | E4BA9C | 16-01 | 3021 | 889F | B0A1 | 亜 |
4E9D | E4BA9D | 48-19 | 5033 | 98B1 | D0B3 | 亝 |
4E9E | E4BA9E | 48-20 | 5034 | 98B2 | D0B4 | 亞 |
4E9F | E4BA9F | 48-21 | 5035 | 98B3 | D0B5 | 亟 |