日本語では漢字を使います。ひらがなもカタカナも英字も使います。
世界中の文字を一つの文字コードで表現できれば、多言語が混在する文書を作るのが楽ですし、ソフトウェアの製作が楽です。
たくさんの文字を表現するには工夫が必要です。代表的な方法は次の3つです。
大きく分けてJISとユニコードに分類できます。日本語の文字だけに限ればほぼ同じ文字が登録されています。
一般の人が使用する文字は JIS X 0213 や ユニコードでほぼ間に合いますが、戸籍や古文書にでてくる文字も考えるとこれでは足りません。もっと多くの文字を登録する試みがいくつかありますが、戸籍統一文字を加えておきました。
文字セット (の系列) |
説明 | 代表的なエンコード方式 |
---|---|---|
JIS X 0208-1990 | 日本工業規格の古い規格。第1,第2水準漢字と記号、英字、かななど約7000文字が登録されている。 機種依存の補助漢字を加えたものをWindows-31Jと呼んで区別することがある。 | Shift_JIS, (Windows-31J), EUC-JP, ISO-2022-JP |
JIS X 0213:2004 (JIS2004) |
日本工業規格の新しい規格。第1,第2水準に第3,第4水準漢字を加えて約1万文字が登録されている。JIS2004などと呼ばれることもある。 | Shift-JIS-2004, EUC-JIS-2004, ISO-2022-JP-2004 |
Unicode (ユニコード) |
ユニコードコンソーシアム,ISO/IECの国際規格。世界中の文字をひとつの文字コードで表すことを目指している。漢字の部分は日本,中国,韓国のものを統合している。最大で21ビットを使う。 | UTF-32, UTF-16, UTF-8 |
戸籍統一文字 | 法務省が戸籍の電子データ化のために策定した。戸籍に使用する文字だけなので文字コードと呼ぶのは相応しくないかもしれないが6万文字近くが登録されている。この6万という数を考えると戸籍の文字をJISやユニコード内の文字で済ませるのは無理がある。 | 戸籍統一文字番号(10進数6桁) |
文字を集めたものを文字セット(JISの用語では文字集合)といいます。JISを例にしてどのようにセットが決められるか要点を考えてみます。
異なる書き方をする文字を同じ字とみなすことを「包摂(ほうせつ)」といいます。
ひらがなの場合は意見の違いはありません。どれも同じ文字としています。つまり同じ文字コードです。
比較する文字 | 違い | 文字コード |
---|---|---|
点がつながっているかいないか、はねがあるかないか | 同じ文字 | |
第1画が点か、水平線か、ちょっと斜めの線か | 同じ文字 | |
点がつながっているかいないか、はねがあるかないか | 同じ文字 | |
点がつながっているかいないか、交わっているかいないか | 同じ文字 |
漢字の場合は意見の違うものがあります。文字セットを作った時の考え方によります。
同じ文字と書いてあるものは同じ文字コードで、2つの文字を区別して表示できません。
異なる文字と書いてあるものは別々の文字コードが割り当てられていて、2つの文字を区別して表示することができます。
比較する文字 | 違い | JIS X 0208 | JIS X 0213 | 常用/人名 | Unicode |
---|---|---|---|---|---|
へんの形が昔の形(𩙿)か省略形(飠)か | 同じ文字 | 同じ文字 | (常)( ) | 同じ文字 | |
二点しんにょう(辶)か一点しんにょう(辶)か | 同じ文字 | 同じ文字 | (常)( ) | 同じ文字 | |
大の字か、立の字か | 同じ文字 | 異なる文字 | (常)( ) | 異なる文字 | |
口か、甘のような字か | 同じ文字 | 同じ文字 | (常)( ) | 異なる文字 | |
士か、土か | 同じ文字 | 同じ文字 | (常)( ) | 異なる文字 | |
∟に人か、ヒか | 同じ文字 | 同じ文字 | (常)( ) | 同じ文字 | |
∟に人か、ヒか | 同じ文字 | 異なる文字 | (人)(常) | 異なる文字 | |
∟に人か、ヒか | 同じ文字 | 異なる文字 | ( )(常) | 異なる文字 | |
∟に人か、ヒか | 同じ文字 | 異なる文字 | (人)(常) | 異なる文字 | |
∟に人か、ヒか | 同じ文字 | 異なる文字 | ( )(常) | 異なる文字 |
「常用/人名」の欄は常用漢字表にある漢字に(常)、人名用漢字にあるものに(人)を書いてあります。褐褐 の欄に(人)(常)とあるのは、褐は人名用漢字、褐は常用漢字であるという意味です。( )はそのどちらでもありません。
葛のつくりの扱いは、一貫していないように見えますが、葛のつくりと渇のつくりは、そもそも異なるものが混同されたという可能性もあります。詳しく調べてみないとわかりません。