chise-db
Koichi KAMICHI
kamichi @ fonts.jp
2005年 6月 14日 (火) 23:32:04 JST
上地です。
chise-dbをいじればいじるほど、なんだか沼に足を踏み入れてしまったような気
がする今日この頃です^^;4つほど教えていただけないでしょうか。
1)featureとby_featureの対称性
chise-db\character以下のfeatureとby_featureディレクトリ以下にDBファイル
がありますが、サイズからして両者の情報量は一致していないと思います。
たとえば、0x4e00から0x9fa5までのint値を元に"=ucs"という素性をchise_ds_decode_char
で探しても1つもエントリはありませんが、0x4e08というchar_idからは"=ucs"
の素性に対して19976というint値が得られます。つまり対称になっていませんよ
ね。
これはアプリケーション側で、chise_ds_decode_charとchise_ds_foreach_char_feature_name
の双方からデータを探す必要がある、ということでしょうか?
2)u+4e08「丈」
このコードポイントについては、3つ関連オブジェクトがあります。そのうち、
筆押さえの無い字形2つが以下です。
==============================================
->subsumptive (?・ァ・?・
->vulgar (?陞)
=big5 42070
=jis-x0208 @ 1997 15974
=ucs 19976
ideographic-products (?・?隘 ?陲8 ?陲 ?陦。 ?陝 ? ?杖 ?Y ?仗 ?t)
ideographic-radical 1
ideographic-strokes 2
sound @ ja/kun ("tue" "take")
sound @ ja/on/go ("dyAu")
sound @ ja/on/kan ("tyAu")
total-strokes 3
==============================================
->vulgar (?・
<-subsumptive (?丈)
=cns11643-1 17463
=gb2312 21833
=gt 20
=gt-pj-1 15974
=jis-x0208-1990 15974
=jis-x0208 @ 1990 15974
=ucs @ unicode 19976
hanyu-dazidian (1 9 2)
ideographic-products (?・?・応?・?隘 ?陲8 ?陲 ?陦。 ?陝 ? ?杖 ?Y ?仗 ?t)
shinjigen-1 9
shinjigen-2 9
==============================================
で、どうして2つに分かれるのかがわかりません。たとえばJIS90とJIS97で分離
しているのですが、90から97のときに字形は変わったのでしょうか?もしかして
2画目の頭が真ん中から始まるのか、右寄りから始まるのか、の差でしょうか?
3)ideographic-products
この素性は初めて気がつきました。これはideographic-structureから自動生成
していると考えていいのでしょうか。
4)もう遅いかもしれませんが…
いろいろ使えるようになってきた結果、やはり手元のWindows(cygwin)環境で
使えたら良いのに、と思うのですが、素性名(=DBファイル名)に記号が使われ
ていて、chise-dbのtarを展開するとファイル名エラーになってしまいます。な
んとかwindows環境で使う方法は無いでしょうか?たとえばファイル名をbase64
かなにかでエンコードして、アプリケーション側でデコードするラッパーがあれ
ばできるかもしれませんが。
--
上地宏一 Koichi KAMICHI <kamichi @ fonts.jp>
More information about the CHISE-ja
mailing list