JIS X 0208 related CCSs (Re: UTF-2000 char-db)
守岡知彦 / MORIOKA Tomohiko
tomo @ kanji.zinbun.kyoto-u.ac.jp
2003年 1月 15日 (水) 15:24:32 JST
>>>>> In [chise-ja : No.00119]
>>>>> "江渡さん" = Kouichirou Eto <2003 @ eto.com> wrote:
江渡さん> jisx0208が、=jis-x0208, japanese-jisx0208-1978,
江渡さん> japanese-jisx0208-1990の三つに分かれましたが、これはどのよう
江渡さん> に扱うのがいいのでしょうか。
江渡さん> 例えば「JISX0208に含まれる漢字全部」というのを扱いたい場合は、
江渡さん> =jis-x0208とjapanese-jisx0208-1990の二つを合成したものを対象
江渡さん> にすればいいのでしょうか。
現在の XEmacs UTF-2000 では、
<biwidth font で見て下さい>
=jis-x0208(共通部分)
|
+-----------------------+-------------------+
| | |
japanese-jisx0208-1978 japanese-jisx0208 japanese-jisx0208-1990
(1978 年版) (1983 年版) (1990 年版)
</biwidth font で見て下さい>
という継承関係になっています。
XEmacs UTF-2000 において、ある CCS を継承した CCS は、自分の文字属性が
あればそれを使い、それがなければ親の文字属性を使います。(*1)
(*1) この際、親の属性値に対して、coded-charset の属性 conversion で指
定される変換を行ったものが子の属性値となります。JIS X 0208 系では
conversion は identical なので、そのままの値が使われます。
そういう訳で、「JISX0208に含まれる漢字全部」を「JIS X 0208:1990 年版に
含まれる漢字全部」とするなら、おっしゃる通り、=jis-x0208 と
japanese-jisx0208-1990 を合成したものを対象にすれば良いということにな
ります。
なお、この例の場合、japanese-jisx0208-1990 が =jis-x0208 の定義を打ち
消すような形にはなっていませんが、一般には子が親の定義とは異なる定義を
することが可能なので、子→親の順に探索する必要があります。
余談ですが、CCS の性質に関する情報も外部データベースに書き出すようにし
た方が良いと思います。
CCS 以外の文字属性に関しても、簡単な説明、型、define-char 形式での
format, 実体参照形式での format 等の情報(他にもいろいろあると思います
が)を書き出すのが良いかなと思っています。
また、CCS 以外の文字属性に関しても継承を導入した方が良いかなとか、その
場合、多重継承を許すべきか否かということも考えてます。
この件に関してご意見頂けたら幸いです。
--
守岡 知彦 (MORIOKA Tomohiko) <tomo @ kanji.zinbun.kyoto-u.ac.jp>
More information about the CHISE-ja
mailing list