異体字セレクタ

Unicodeでは同じ字として同一の文字コードを与えられた文字(例えば、葛の2字など)を区別するために、異体字セレクタ(variation selector)という仕組みを考えています。

U+E0100〜U+E01EFのコードが漢字の異体字セレクタとして使われます。このコードは単独では文字を表しません。他の文字コードの後に付加してその文字の何番目の異体字であるかをセレクトするというものです。

この機構に対応していないシステムではセレクタのコードを無視すれば一般的な文字として表示できます。また、文字の検索などではこのセレクタを無視すれば同じ文字として扱うことができます。

Unicodeスカラ値 選択される文字
U+845B U+E0100 葛
U+845B U+E0101 葛

このために Ideographic Variation Database が整備されつつあります。

たとえば「葛」の字には次の様に登録があります。

Charts for the Unicode Ideographic Variation Database (November 14, 2010) より

葛

Adobe社のものと汎用電子情報交換環境整備プログラム(経済産業省の委託事業)の成果がともに登録されているが、重複しているように見えます。