戸籍統一文字

漢字には同じ字でも異なる書き方のである異体字や略字、通用するが正しい字体ではない俗字などがあります。

戸籍の電子データ化のために字の形が微妙に異なるものを独自に登録して番号をつけています。これを戸籍統一文字番号と呼んでいます。戸籍に使用する文字だけなので文字コードと呼ぶのは相応しくないかもしれませんが、JISの1万字より圧倒的に多い6万文字近くが登録されています。

例えば姓の「葛西」や地名の「葛飾区」などで使われる「葛」という字は次のように5つ登録されています。

JISとUnicodeに登録されている文字はこのうち1つだけです。これは同じ字であると判断したからです。

法務省「戸籍統一文字情報」より 独自調査部分
戸籍統
一文字
戸籍統一
文字番号
Unicode Unicode
(JIS2004)
Shift_JIS Shift_JIS
(JIS2004)

Unicode Windows-31J テキスト
(さざなみ/IPA)
349920 349920 U+845B 8A8B
352760 352760 U+845B 8A8B U+845B 8A8B
352870 352870
353070 353070
355990 355990

(JIS2004)がついている欄で登録の位置が異なるのは、2004年に「例示字形」が変更になっているからです。349920 の字形(ヒ)から 352760 の字形(人)になりました。文字コードは一つだけですので変更後の規格にあわせたOSやフォントの環境で表示すると(JIS2004)の文字に変わってしまうということです。名前の欄に○があるのは、新生児につける名前として使える文字です。

別の字として登録するのか同じ字としてまとめるのかの判断は難しいものがあります。同じコードを割り当てると字形の違いを区別して表現できなくなりますが、別のコードを割り当てることで検索に支障が出る場合も考えられます。

JISで規定される文字コード表に使われている字は「例示字形」ということになっていて字の形を決めているものではないという建前ですが、事実上規範として受け取られています。もともと当用漢字や常用漢字にそって決められましたが、間違いや解釈の違いがありました。そこで2004年の改訂で国語審議会の字体表にあわせて168文字の「例示字形」が変更されました。中でも葛が有名です。

JISにない文字

JISではこれは同じ文字であるとして片方しか登録していません。登録されていない方は「つちよし」と呼ばれています。戸籍統一文字では登録されていて区別されています。

戸籍統一文字の検索ではUnicodeにもない文字となっていますが、台湾起源の文字として登録されています。ただしUnicodeのUTF-16というエンコーディングでは2バイトで表現できず、サロゲートペアという手法を使います。これに対応していないソフトでは利用できません。

法務省「戸籍統一文字情報」より 独自調査部分
戸籍統
一文字
戸籍統一
文字番号
Unicode Unicode
(JIS2004)
Shift_JIS Shift_JIS
(JIS2004)

Unicode Windows-31J テキスト
(さざなみ/IPA)
038130 038130 U+5409 U+5409 8B67 8B67 U+5409 8B67
038140 038140 U+20BB7 𠮷𠮷

これもJISでは同じ文字であるとして片方しか登録していません。登録されていない方は「はしごだか」と呼ばれています。。戸籍統一文字では登録されていて区別されています。

戸籍統一文字の検索ではUnicodeにもない文字となっていますが、中国、台湾、北朝鮮の文字コードにある字として「高」の隣に登録されています。Windows-31Jでは独自拡張の部分に登録されていて使われている例があります。FBFC ですが、Shift_JIS-2004では別の文字になってしまいます。

法務省「戸籍統一文字情報」より 独自調査部分
戸籍統
一文字
戸籍統一
文字番号
Unicode Unicode
(JIS2004)
Shift_JIS Shift_JIS
(JIS2004)
Unicode Windows-31J テキスト
(さざなみ/IPA)
513270 513270 U+9AD8 U+9AD8 8D82 8D82 U+9AD8 8D82
513280 513280 U+9AD9 FBFC

JIS X 0213 で追加された文字

JIS X 0213 で追加されて両方使えるようになった文字です。追加された方は「たちさき」と呼ばれています。もちろん戸籍統一文字でも登録されていて区別されています。

0213で追加される前にWindows-31Jでは独自拡張の部分に登録されていて使われていました。FAB1 ですが、Shift_JIS-2004では別の文字になってしまいます。

法務省「戸籍統一文字情報」より 独自調査部分
戸籍統
一文字
戸籍統一
文字番号
Unicode Unicode
(JIS2004)
Shift_JIS Shift_JIS
(JIS2004)
Unicode Windows-31J テキスト
(さざなみ/IPA)
092550 092550 U+5D0E U+5D0E 8DE8 8DE8 U+5D0E 8DE8
094190 094190 U+FA11 9892 U+FA11 FAB1

これも JIS X 0213 で追加されて両方使えるようになった文字です。フォントでは違いを強調していますが、手書きではわからない違いです。

戸籍統一文字の検索ではUnicodeにない文字となっていますが、登録されています。ただしUnicodeのUTF-16というエンコーディングでは2バイトで表現できず、サロゲートペアという手法を使います。これに対応していないソフトでは利用できません。

法務省「戸籍統一文字情報」より 独自調査部分
戸籍統
一文字
戸籍統一
文字番号
Unicode Unicode
(JIS2004)
Shift_JIS Shift_JIS
(JIS2004)
Unicode Windows-31J テキスト
(さざなみ/IPA)
037710 037710 U+53F1 U+53F1 8EB6 8EB6 U+53F1 8EB6
037940 037940 9873 U+20B9F 𠮟𠮟