文字コードについて

文字コード

文字を扱うにあたり、コンピュータは文字に数値に置き換えています。これを文字コードといいます。

本当は一般の人が覚えていなくても使えるように規格を統一してあるべきなのですが、進歩の速いコンピュータの世界では規格がどうしても後追いになります。また、各社が独自に拡張して混乱も起きてしまっています。

現在文字コードは過渡期にあります。JIS X 0213 という規格がでて、表現できる文字が大幅に増え、以前機種依存文字といわれたものが正式にJISに取り込まれたりしています。しかし、これですぐに問題が解決するわけでなく、古い機械との互換性を保つためしばらくは現在の制限が続くことになるでしょう。そこで以下の解説では、JIS X 0208 までの文字しか使わない方針で書いています。

メールに使える文字

現在のところ使用できる文字をJIS(日本工業規格)のコードの順番で見てみます。

ここの一覧でが機種依存文字などメールでの使用ができないものです。また、・ は、そこに文字が割り当てられていないことを表します。

半角文字

半角文字

この表のうち、上半分はASCIIコードとも呼ばれます。ほぼ世界共通で使えます。(実際には改行文字などの制御文字も使っています)ASCIIコードは各国で、表示される文字の規格が一部異なります。合衆国ではUS-ASCII(ANSI X3.4-1968)、日本ではJISローマ字(JIS X0201 Roman)として文字が定められています。この2つの規格では以下の2文字が異なります。設定・状態等によって見え方が異るので注意してください。
"\" → "\"(US-ASCII) "¥"(JISローマ字)
"~" → "〜"(US-ASCII) " ̄"(JISローマ字)

赤色紫色で示された文字は半角カナで、使用できません。全角のカナを使ってください。特に赤色の部分は半角カナに含まれるカナ記号と呼ばれるもので、半角カナの一部だとは気がつかないことがあるので注意してください。

記号(第1水準)

ここから先は日本語のための拡張で漢字コードとよばれます。「漢字」と言っていますが、実際には記号やひらかなやカタカナ、英字も含まれます。

記号(第1水準)

ここの記号はJISの漢字コードのうち第1水準とよばれるもので、安心して使用できます。ただし、黄土色の部分は新JIS(JIS X0208)で加えられた文字ですから古い機械(DOSの機械など)では、表示できない場合もあります。

全角英数・かな(第1水準)

全角英数・かな(第1水準)

英字・数字も半角の他に全角でも文字があります。ファイル名などで使用するときは区別しなければなりません。

半角カナの代わりにここにあるカタカナを使いましょう。

ギリシア文字・ロシア文字・罫線線素(第1水準)

ギリシア文字・ロシア文字・罫線線素(第1水準)

あくまで日本語の記号という扱いです。ギリシア文字にもロシア文字にもそれぞれ本国の規約があります。

黄土色の部分は罫線を文字を並べてつくるためのものです。これも新JIS(JIS X0208)で加えられた文字ですから古い機械(DOSの機械など)では、表示できない場合もあります。また、一部の旧機種でJISの未定義の部分に勝手に罫線線素を定義していたものがありますが、コードが違います。文字の形は同じですが、こちらは使用できません。

丸数字など(JIS X 0208 にない)

丸数字など

もともとNECの作った機種依存文字です。JIS X 0213でこのまま規格の仲間入りをしました。Windowsではほぼ使用できます。しかし、使用できない機種も多くありますのでメールでは使用しないほうがいいでしょう。メール以外でも機種やソフトの異なる相手に送る可能性のある文書には使わないのが安全です。

特に最後の部分の数学記号は上記の「記号(第1水準)」のものを使用しましょう。このように同じ文字に見えてもコードが異なり、使えるものと使えないものがあるという場合もあります。困ったことです。

第1水準漢字の初めの部分

第1水準漢字の初めの部分

コンピュータの能力が低かった時によく使用する3000字程度を第1水準として定めました。音読みで50音順になっています。図は「あ」から「お」までです。

第1水準漢字の最後の部分〜第2水準

第1水準漢字の最後の部分〜第2水準

さらに3000文字程度を第2水準として定めました。こちらは部首によって分類しています。今では第1水準しか使えないものはほとんどありません。

図は第1水準の終わりの部分から第2水準の初めの部分で、「にんべん」の文字がたくさん見えています。

第2水準漢字の最後の部分

第2水準漢字の最後の部分

図は第2水準漢字の最後の部分です。部首は画数の少ない順なので最後は複雑な文字です。

NEC補助漢字

NEC補助漢字

IBM のメインフレーム(大型コンピュータ)で使用されている文字のうち JIS X 0208 で規定されていないものを NEC が PC-9801 シリーズ用に選んで JIS X 0208 の空き領域に配置した文字。使用する IME(漢字変換ソフト) によっては変換候補として出してしまうこともあるので注意が必要です。

IBM補助漢字

IBM補助漢字

IBM のメインフレームで使用されている文字のうち JIS X 0208 に規定されていないものを IBM が PC 用に Shift_JIS の保留域(0xfa40 - 0xfc4b)に配置した文字。ISO-2022-JP や EUC-JP には変換できないので問題を生ずる。そのため決して使うべきではない。ただし、IME の通常の変換候補としては出ることはまずないため、コード表から入力をしたり、この文字を単語登録したりしない限りおおむね大丈夫である。

補助漢字の今後

JIS X 0213 で追加される文字にほぼ含まれている。しかし、登録されている位置が異なり、一部含まれない文字や、字体の変わってしまう文字があり混乱が予想される。いま諸事情を理解することは困難なのでもう少し静観して世の中が落ち着いてから使うことにする。


聖愛中学高等学校
http://www.seiai.ed.jp/
Last Modified