JIS X 0208 related CCSs (Re: UTF-2000 char-db)

守岡知彦 / MORIOKA Tomohiko tomo @ kanji.zinbun.kyoto-u.ac.jp
2003年 1月 15日 (水) 15:24:32 JST


>>>>> In [chise-ja : No.00119] 
>>>>>	"江渡さん" = Kouichirou Eto <2003 @ eto.com> wrote:

江渡さん> jisx0208が、=jis-x0208, japanese-jisx0208-1978,
江渡さん> japanese-jisx0208-1990の三つに分かれましたが、これはどのよう
江渡さん> に扱うのがいいのでしょうか。
江渡さん> 例えば「JISX0208に含まれる漢字全部」というのを扱いたい場合は、
江渡さん> =jis-x0208とjapanese-jisx0208-1990の二つを合成したものを対象
江渡さん> にすればいいのでしょうか。

現在の XEmacs UTF-2000 では、

<biwidth font で見て下さい>

                           =jis-x0208(共通部分)
                                |
        +-----------------------+-------------------+
        |                       |                   |
japanese-jisx0208-1978	japanese-jisx0208   japanese-jisx0208-1990
     (1978 年版)	   (1983 年版)           (1990 年版)

</biwidth font で見て下さい>

という継承関係になっています。

XEmacs UTF-2000 において、ある CCS を継承した CCS は、自分の文字属性が
あればそれを使い、それがなければ親の文字属性を使います。(*1)

(*1) この際、親の属性値に対して、coded-charset の属性 conversion で指
     定される変換を行ったものが子の属性値となります。JIS X 0208 系では
     conversion は identical なので、そのままの値が使われます。

そういう訳で、「JISX0208に含まれる漢字全部」を「JIS X 0208:1990 年版に
含まれる漢字全部」とするなら、おっしゃる通り、=jis-x0208 と
japanese-jisx0208-1990 を合成したものを対象にすれば良いということにな
ります。

なお、この例の場合、japanese-jisx0208-1990 が =jis-x0208 の定義を打ち
消すような形にはなっていませんが、一般には子が親の定義とは異なる定義を
することが可能なので、子→親の順に探索する必要があります。


余談ですが、CCS の性質に関する情報も外部データベースに書き出すようにし
た方が良いと思います。

CCS 以外の文字属性に関しても、簡単な説明、型、define-char 形式での
format, 実体参照形式での format 等の情報(他にもいろいろあると思います
が)を書き出すのが良いかなと思っています。

また、CCS 以外の文字属性に関しても継承を導入した方が良いかなとか、その
場合、多重継承を許すべきか否かということも考えてます。

この件に関してご意見頂けたら幸いです。

-- 
守岡 知彦 (MORIOKA Tomohiko) <tomo @ kanji.zinbun.kyoto-u.ac.jp>




More information about the CHISE-ja mailing list