IDSデータの.txtについて
守岡知彦 / MORIOKA Tomohiko
tomo @ m17n.org
2004年 11月 9日 (火) 19:47:41 JST
>>>>> In [chise-ja : No.00390]
>>>>> "上地さん" = Koichi Kamichi <kamichi @ fonts.jp> wrote:
上地さん> そうなると、「XEmacs CHISE 附属の CHISE DB(『CHISE 基本文字
上地さん> データベース』)」というものの実態が、私には理解できていない
上地さん> ようです。
上地さん> 「XEmacs CHISE 附属の CHISE DB」のうちのIDS情報を*.txtに落と
上地さん> すことで、ほかのIDS*.txtと合わせてIDSについては完全なデータ
上地さん> が手に入る、という理解でよろしいでしょうか?また、それは可能
上地さん> でしょうか?
うーむ、かえって混乱させてしまったようですね。すみません。(^_^;
とりあえず、幾つか関連事項を列挙してみます。
・『CHISE 基本文字データベース』といったのは、XEmacs CHISE に附属する
define-char 形式で書かれた文字定義群、ないしは、XEmacs CHISE を
install した時に ${PREFIX}/lib/chise/chise-db/ 等に出来る libchise
のためのデータベースのことです
・ideographic-structure は IDS の構文解析結果を S 式で表現したものです
・『CHISE 基本文字データベース』にはあんまり ideographic-structure が
含まれてません。実用上、CHISE-IDS (ids) をインストールする必要があり
ます
・ids/IDS-*.txt は CCS? 毎に分かれて入っているので、かなり多くの文字が
重複して入っているはずです
・ids/IDS-*.txt は、文字や部品を『CHISE 基本文字データベース』の文字定
義に基づき解釈することを想定しています(もっとも、それを無視して
ids/IDS-*.txt を解釈することも可能ではあります)
・複数の ids/IDS-*.txt ファイルに重複して存在する文字の IDS は現状では
同一でない場合があります。このとき、CHISE IDS パッケージのインストー
ラーは ids/install-ids.el で指定された順番に従って、
ideographic-structure を上書きしていきます。よって、先に
ideographic-structure に書き込まれた情報が優先されます
この結果、重複分を無視すれば、XEmacs CHISE と CHISE-IDS を install し
た後の ideographic-structure は CHISE-IDS 中の IDS-*.txt + α となりま
る。一方、重複分を気にするなら、ids/IDS-*.txt の部分情報 + αとなりま
す。そして、α は『CHISE 基本文字データベース』中の
ideographic-structure のうち ids/IDS-*.txt に含まれてないものといえま
す。
ところで、いまいち上地さんが何をしたいのか良く理解してないのですが、お
そらく、α の謎や ids/IDS-*.txt の重複に関して深く追求しても仕方がない
と思います。そういう意味では、何も考えず、XEmacs CHISE と CHISE-IDS を
install した後の ideographic-structure(あるいは、この前公開した
chise-db パッケージ)に基づくのが楽だと思います。IDS parse 済ですし。
もし、CHISE-DB を直接使うのが嫌なら、ideographic-structure を XEmacs
CHISE とか Ruby/CHISE とかで dump してやれば良い気がします。
ex.
(map-char-attribute
(lambda (char value)
(insert (format "%c\t%s\n"
char
(ideographic-structure-to-ids value)))
nil)
'ideographic-structure)
参考になったでしょうか?
--
===『幾千億の分子に分かれても ========================================
決して忘れない。
この宇宙が終るまで』 守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======
More information about the CHISE-ja
mailing list