IDSデータの.txtについて

守岡知彦 / MORIOKA Tomohiko tomo @ m17n.org
2004年 11月 9日 (火) 15:48:35 JST


>>>>> In [chise-ja : No.00386] 
>>>>>	"上地さん" = Koichi Kamichi <kamichi @ fonts.jp> wrote:

上地さん> 現在、KAGEの部品データとCHISEのIDSデータを結合しようとしてい
上地さん> て、chide-dbよりもidsのIDS*.txtをそのまま使った方が早いとい
上地さん> うことで、考えているのですが、3点質問があります。

上地さん> データの以下のようなデータがあるとして、

上地さん> M-14568 	&I-M-14568;	
上地さん> M-14569 	&M-14569;	
上地さん> M-14570 	&M-14570;	
上地さん> HZK01-F8F8	&HZK01-F8F8;	&CDP-8BD4;由
上地さん> HZK01-F8F9	&HZK01-F8F9;	&CDP-8BD4;
上地さん> HZK01-F8FA	&HZK01-F8FA;	&CDP-8BD4;冂巳
上地さん> HZK01-F8FB	&HZK01-F8FB;	&CDP-8BD4;白

上地さん> 1.実態参照で頭にIがつくのは字形が存在するが定義が存在しない、
上地さん> ということですが、つまり、IDSだけに着目している場合はIがつい
上地さん> ているのとついていないので違いは無いと考えていいですか?

3列目(IDS 欄)に関してはそういえます。

;; 時々、気がつけば、I- 取りやってるんですが。

なお、2列目は、編集者向けの表示用字形情報欄なので、意味的には全て
&I-...; と看做せます。


上地さん> 2.3列目がないデータ(上記の上3行)は、IDSがなく、そのコードポ
上地さん> イントにあたる字形がそのまま独立部品であると判断していいです
上地さん> か?

未入力である可能性があるので、必ずしもそうとはいえません。

;; 現状では、独立部品の整理はまだ十分に行えてないといえます。独立部品
;; かどうかの情報が必要なら、そのための素性を付けるのが良いような気が
;; します。(KAGE の情報も併せ、一度、組織的にちゃんと整理しないとと思っ
;; ては要るのですが)


上地さん> 3.これらIDS*.txtはどのタイミングで更新されるのでしょうか?

今の所、ちゃんと決まってません。(気が向いたらという感じ (^_^;;;)


上地さん> 4.もしかして、($chise-db
上地さん> dir)/system-char-id/ideographic-structureは、IDS*.txtの元デー
上地さん> タですか?(IDS*.txtを使わずともideographic-structureを使えば
上地さん> 同じデータを入手できますか?)

ある意味ではそうともいえますし、そうでないともいえます。

つまりこういうことです。

(a) ideographic-structure は XEmacs CHISE 附属の CHISE DB(『CHISE 基
    本文字データベース』)に IDS-*.txt の情報を重ねたものです。
    (cf. ids/Makefile, ids/install-ids.el, ids/ids-read.el)
    この意味では、IDS-*.txt が元ファイルといえます。

また、

(b) IDS-*.txt は ids/ids-dump.el を使って ideographic-structure の情報
    を(そのまま、あるいは、加工した上で)dump したものと照合され、情
    報を付加したり check したりして作成されています。
    この意味では、ideographic-structure が元データといえます。

このように (a) と (b) の作業を繰り返しながら、最終的には不動点に達する
ようにしたい所なんですが、残念ながら現状では不動点までの距離は長そうで、
不動点に達する前の適当な時点で commit してます。ただそれでも、どちらに
対してデータ編集操作を行ってももう一方に反映できるようにはなっています。


上地さん> #現在、関連してchise-dbのidsをweb検索できるようにすることを
上地さん> 考えています。(KAGEの部品デザインのときの検索用として)

;; 私も WWW による CHISE DB の検索サービスを作ろうと思いつつ、なかなか
;; 出来てません。(^_^;

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======





More information about the CHISE-ja mailing list