chise-db

Koichi KAMICHI kamichi @ fonts.jp
2005年 6月 14日 (火) 23:32:04 JST


上地です。

chise-dbをいじればいじるほど、なんだか沼に足を踏み入れてしまったような気
がする今日この頃です^^;4つほど教えていただけないでしょうか。

1)featureとby_featureの対称性

chise-db\character以下のfeatureとby_featureディレクトリ以下にDBファイル
がありますが、サイズからして両者の情報量は一致していないと思います。

たとえば、0x4e00から0x9fa5までのint値を元に"=ucs"という素性をchise_ds_decode_char
で探しても1つもエントリはありませんが、0x4e08というchar_idからは"=ucs"
の素性に対して19976というint値が得られます。つまり対称になっていませんよ
ね。

これはアプリケーション側で、chise_ds_decode_charとchise_ds_foreach_char_feature_name
の双方からデータを探す必要がある、ということでしょうか?

2)u+4e08「丈」

このコードポイントについては、3つ関連オブジェクトがあります。そのうち、
筆押さえの無い字形2つが以下です。
==============================================
->subsumptive   (?・ァ・?・
->vulgar        (?陞)
=big5   42070
=jis-x0208 @ 1997 15974
=ucs    19976
ideographic-products    (?・?隘 ?陲8 ?陲 ?陦。 ?陝 ? ?杖 ?Y ?仗 ?t)
ideographic-radical     1
ideographic-strokes     2
sound @ ja/kun    ("tue" "take")
sound @ ja/on/go  ("dyAu")
sound @ ja/on/kan ("tyAu")
total-strokes   3
==============================================
->vulgar        (?・
<-subsumptive   (?丈)
=cns11643-1     17463
=gb2312 21833
=gt     20
=gt-pj-1        15974
=jis-x0208-1990 15974
=jis-x0208 @ 1990 15974
=ucs @ unicode    19976
hanyu-dazidian  (1 9 2)
ideographic-products    (?・?・応?・?隘 ?陲8 ?陲 ?陦。 ?陝 ? ?杖 ?Y ?仗 ?t)
shinjigen-1     9
shinjigen-2     9
==============================================
で、どうして2つに分かれるのかがわかりません。たとえばJIS90とJIS97で分離
しているのですが、90から97のときに字形は変わったのでしょうか?もしかして
2画目の頭が真ん中から始まるのか、右寄りから始まるのか、の差でしょうか?

3)ideographic-products

この素性は初めて気がつきました。これはideographic-structureから自動生成
していると考えていいのでしょうか。

4)もう遅いかもしれませんが…

いろいろ使えるようになってきた結果、やはり手元のWindows(cygwin)環境で
使えたら良いのに、と思うのですが、素性名(=DBファイル名)に記号が使われ
ていて、chise-dbのtarを展開するとファイル名エラーになってしまいます。な
んとかwindows環境で使う方法は無いでしょうか?たとえばファイル名をbase64
かなにかでエンコードして、アプリケーション側でデコードするラッパーがあれ
ばできるかもしれませんが。

--
上地宏一 Koichi KAMICHI <kamichi @ fonts.jp>





More information about the CHISE-ja mailing list