ISO/IEC 10646のGBソース、ほか

Koichi Kamichi kamichi @ fonts.jp
2005年 8月 12日 (金) 17:06:59 JST


上地です。

#CCS一覧取得の件、アドバイスありがとうございます。>守岡さん

KAGE部品をchise-dbに移行する際、4つ問題が出てきました。

1)chise-dbで扱っていないGBソース

2000年版の10646-1では、CJK漢字のG欄は全コードに強引に字を割り振ってきて
いますが、細かい字形の差異を区別するために、その追加G欄字形を使いたいこ
とがあります。ところが、chise-dbではCCSはG0(GB2312),G1(GB12345)しか持っ
ていません。そこで以下のCCSを追加してほしいと思います。

(省略 feature true-name)
G3 =GB7589 chinese-gb7589
G5 =GB7590 chinese-gb7590
GE =GB16500 chinese-gb16500

といっても全部で数文字なので、とりあえず手元では勝手に追加します。

2)chise-dbでは同定しているが、規格表を上地が見たときに分離したいと判断
したもの

&u+4e57; のT欄を分離したい
&u+5313; のT欄を分離したい

これは、難しいでしょうか?正しい変更(申請)プロセスがあれば教えてください。
無理であれば、それほど必要性はないので削ってしまいます。現状では2つだけ
です。

3)IDSの解釈の違い

まだデータはありませんが、おいおい問題になってくることに、分解のための
IDSと合成のためのIDSは性格が違うため、字によってはideographic-structure
素性以外のIDSを持たせたいと思います。現状ではideographic-structure @ kage 
という素性を追加し、KAGEエンジンは @kage→@kageなし の順で探していくこ
とにします。

4)漢字合成部品としては頻度が高いが、字源的には独立字になれない・既存
CCSにコードポイントがない、(部分)部品の扱い

たとえば、「業」のIDSは、縦3分解(冠部分+ソ一+未)となっていますが、
グリフ合成エンジンのデータを用意する立場としては「ソ一+未」を1つの部品
としたいです。しかし、頼みのGT-Kにも(笑)、ありませんでした。このような
場合に、どうすべきか悩んでいます。KAGEでは「私用定義部品」もしくは「ソ一
+未を部品名として持つ」という方法がありました。

1つの方法としては、KAGE部品CCSを用意して、ただしKAGE部品CCSは一般のideographic-structure
では用いずにideographic-structure @ kageでのみ使ってよい、とすれば、既存の
データに影響が出ないかと思っています。今は10個ほど追加したい部分部品が
あります。

-- 
上地 宏一 Koichi Kamichi <kamichi @ fonts.jp>





More information about the CHISE-ja mailing list