libchise化の問題
Kouichirou Eto
ml2004 @ eto.com
2004年 7月 9日 (金) 01:11:50 JST
江渡です。
> chise_ds_foreach_char_feature_name では余分に出てくるのが面倒ないしは
> CCS の判定が面倒ということでしょうか? char-feature が CCS かどうかの
> 述語があれば良いのかな?
余分に出てくるのが面倒だったのですが、setup_dbで調べればいいのですね。
なのでこれはOKです。
> 江渡さん> CCSに対するeachがない。例えばJIS X 0208集合に含まれる全文字
> 江渡さん> といった検索をする場合があり、そのために使いました。
>
> chise_feature_foreach_char_with_value などでは継承がサポートされてなく
> て不便ということでしょうか?
よく考えたら単なる逆写像なので、これだけで同じ役割を果すのですね。
なのでこれもOKです。(すいません…。)
> 現行の directory 構成に変更した時、単一の data source において char-id
> の体系を単一にすることにしたので、by_feature/ に CHISE 的文字列をキー
> にした逆引表があっても良いと思います。また、by_name や
> by_sound @ ja%2Fon%2Fkan などを増やしたくなったり、あるいは、自動的に逆
> 引表を生成したりする時のことを考えれば、character/by_ids よりは
> by_feature/ids が良いような気がします。
了解です。by_feature/idsに合わせることにします。
> <chise-ja:00242> によれば
>
> ・文字素性 → 属性値
> $CHISE-ROOT/feature/property/<name>
> 但し、<name> は属性名
> 例:文字素性属性 :type
> /usr/local/lib/chise/db/feature/property/type
>
> ・属性値 → 文字素性
> $CHISE-ROOT/feature/by-property/<name>
> 但し、<name> は属性名
> 例:final-byte から CCS 名への対照表
> /usr/local/lib/chise/db/feature/by-property/ccs-final-byte
> ;; foo-bar はその後 foo_bar に変えたので、by_property になる
>
> また、alias に関しては、素性属性 :true-name を用いて解決しようと思っ
> ています。例えば、XEmacs CHISE で
> (define-charset-alias 'ideograph-gt '=gt)
> とした場合、文字素性 ideograph-gt の属性 :true-name に =gt という値
> が入ることとします。これにより、属性 :true-name の有無で alias かど
> うかが判り、alias の場合には :true-name の値によって本名を調べるこ
> とができます。
>
> ということで、directory 構成はとりあえず決めてた模様です。
>
> 形式は plain text でしょうか?
plain textで全然OKです。
> とはいえ、配布用データ形式についてはちゃんと考えたいですね。XML 版の話
> が止まってるので、現状では S 式しかないですね。一応、現在、XEmacs
> CHISE 附属の文字定義ファイルは従来とは異なり Unicode の範囲内の UTF-8
> に収まるように符号化している(utf-8-mcs-er を使っている)ので、大域的
> 情報交換はできますが。
そうですね。現時点ではS式でいいと思います。utf-8-mcs-erで問題ありません。
どうもありがとうございます。
現時点での成果を下記に置いてみました。まだ動かないと思いますが…。
http://eto.com/2003/ruby/
More information about the CHISE-ja
mailing list