libchise化の問題

Kouichirou Eto ml2004 @ eto.com
2004年 7月 9日 (金) 01:11:50 JST


江渡です。

> chise_ds_foreach_char_feature_name では余分に出てくるのが面倒ないしは
> CCS の判定が面倒ということでしょうか? char-feature が CCS かどうかの
> 述語があれば良いのかな?

余分に出てくるのが面倒だったのですが、setup_dbで調べればいいのですね。
なのでこれはOKです。

> 江渡さん> CCSに対するeachがない。例えばJIS X 0208集合に含まれる全文字
> 江渡さん> といった検索をする場合があり、そのために使いました。
> 
> chise_feature_foreach_char_with_value などでは継承がサポートされてなく
> て不便ということでしょうか?

よく考えたら単なる逆写像なので、これだけで同じ役割を果すのですね。
なのでこれもOKです。(すいません…。)

> 現行の directory 構成に変更した時、単一の data source において char-id
> の体系を単一にすることにしたので、by_feature/ に CHISE 的文字列をキー
> にした逆引表があっても良いと思います。また、by_name や
> by_sound @ ja%2Fon%2Fkan などを増やしたくなったり、あるいは、自動的に逆
> 引表を生成したりする時のことを考えれば、character/by_ids よりは
> by_feature/ids が良いような気がします。

了解です。by_feature/idsに合わせることにします。

> <chise-ja:00242> によれば
> 
> ・文字素性 → 属性値
> 	$CHISE-ROOT/feature/property/<name>
> 	但し、<name> は属性名
> 	例:文字素性属性 :type
> 	/usr/local/lib/chise/db/feature/property/type
> 
> ・属性値 → 文字素性
> 	$CHISE-ROOT/feature/by-property/<name>
> 	但し、<name> は属性名
> 	例:final-byte から CCS 名への対照表
> 	/usr/local/lib/chise/db/feature/by-property/ccs-final-byte
> ;; foo-bar はその後 foo_bar に変えたので、by_property になる
> 
>    また、alias に関しては、素性属性 :true-name を用いて解決しようと思っ
>    ています。例えば、XEmacs CHISE で
> 	(define-charset-alias 'ideograph-gt '=gt)
>    とした場合、文字素性 ideograph-gt の属性 :true-name に =gt という値
>    が入ることとします。これにより、属性 :true-name の有無で alias かど
>    うかが判り、alias の場合には :true-name の値によって本名を調べるこ
>    とができます。
> 
> ということで、directory 構成はとりあえず決めてた模様です。
> 
> 形式は plain text でしょうか?

plain textで全然OKです。

> とはいえ、配布用データ形式についてはちゃんと考えたいですね。XML 版の話
> が止まってるので、現状では S 式しかないですね。一応、現在、XEmacs
> CHISE 附属の文字定義ファイルは従来とは異なり Unicode の範囲内の UTF-8 
> に収まるように符号化している(utf-8-mcs-er を使っている)ので、大域的
> 情報交換はできますが。

そうですね。現時点ではS式でいいと思います。utf-8-mcs-erで問題ありません。
どうもありがとうございます。

現時点での成果を下記に置いてみました。まだ動かないと思いますが…。
http://eto.com/2003/ruby/






More information about the CHISE-ja mailing list