IDSデータの.txtについて

守岡知彦 / MORIOKA Tomohiko tomo @ m17n.org
2004年 11月 9日 (火) 19:47:41 JST


>>>>> In [chise-ja : No.00390] 
>>>>>	"上地さん" = Koichi Kamichi <kamichi @ fonts.jp> wrote:

上地さん> そうなると、「XEmacs CHISE 附属の CHISE DB(『CHISE 基本文字
上地さん> データベース』)」というものの実態が、私には理解できていない
上地さん> ようです。
上地さん> 「XEmacs CHISE 附属の CHISE DB」のうちのIDS情報を*.txtに落と
上地さん> すことで、ほかのIDS*.txtと合わせてIDSについては完全なデータ
上地さん> が手に入る、という理解でよろしいでしょうか?また、それは可能
上地さん> でしょうか?

うーむ、かえって混乱させてしまったようですね。すみません。(^_^;

とりあえず、幾つか関連事項を列挙してみます。

・『CHISE 基本文字データベース』といったのは、XEmacs CHISE に附属する
  define-char 形式で書かれた文字定義群、ないしは、XEmacs CHISE を
  install した時に ${PREFIX}/lib/chise/chise-db/ 等に出来る libchise
  のためのデータベースのことです

・ideographic-structure は IDS の構文解析結果を S 式で表現したものです

・『CHISE 基本文字データベース』にはあんまり ideographic-structure が
  含まれてません。実用上、CHISE-IDS (ids) をインストールする必要があり
  ます

・ids/IDS-*.txt は CCS? 毎に分かれて入っているので、かなり多くの文字が
  重複して入っているはずです

・ids/IDS-*.txt は、文字や部品を『CHISE 基本文字データベース』の文字定
  義に基づき解釈することを想定しています(もっとも、それを無視して
  ids/IDS-*.txt を解釈することも可能ではあります)

・複数の ids/IDS-*.txt ファイルに重複して存在する文字の IDS は現状では
  同一でない場合があります。このとき、CHISE IDS パッケージのインストー
  ラーは ids/install-ids.el で指定された順番に従って、
  ideographic-structure を上書きしていきます。よって、先に
  ideographic-structure に書き込まれた情報が優先されます

この結果、重複分を無視すれば、XEmacs CHISE と CHISE-IDS を install し
た後の ideographic-structure は CHISE-IDS 中の IDS-*.txt + α となりま
る。一方、重複分を気にするなら、ids/IDS-*.txt の部分情報 + αとなりま
す。そして、α は『CHISE 基本文字データベース』中の
ideographic-structure のうち ids/IDS-*.txt に含まれてないものといえま
す。


ところで、いまいち上地さんが何をしたいのか良く理解してないのですが、お
そらく、α の謎や ids/IDS-*.txt の重複に関して深く追求しても仕方がない
と思います。そういう意味では、何も考えず、XEmacs CHISE と CHISE-IDS を 
install した後の ideographic-structure(あるいは、この前公開した
chise-db パッケージ)に基づくのが楽だと思います。IDS parse 済ですし。
もし、CHISE-DB を直接使うのが嫌なら、ideographic-structure を XEmacs
CHISE とか Ruby/CHISE とかで dump してやれば良い気がします。

ex.

(map-char-attribute
 (lambda (char value)
   (insert (format "%c\t%s\n"
		   char
		   (ideographic-structure-to-ids value)))
   nil)
 'ideographic-structure)

参考になったでしょうか?

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======





More information about the CHISE-ja mailing list