IDS、実体参照

2002年 12月 23日 (月) 02:29:14 JST

江渡です。つらつらとアトランダムに、質問含めて書いてみます。

実体参照をchar_idに直すというのをRubyでできるようにして、
IDS-*.txtを直接読み込むという方法をとってみることにしました。
現在IDSにあるファイルをchar_id形式に変換するということはできた。
この次に、その情報を元に再帰的に文字を部品化するというをやってみるつもり。

で、IDSのファイルを見ているといろいろ疑問がわきました。

シンニョウの中に一がある文字があって、この文字のIDSで、
シンニョウが欠けてるのですが、これってIDSのデータの間違いということでしょうか?
IDSのオペレータの後には、少なくとも二文字こなくてはいけないはずですが、
そうじゃないものもあります。これはデータの間違いということでしょうか?

IDS-UCS-Compat.txt
IDS-UCS-Compat-Supplement.txt
このファイルはなんでしょうか? これから入力しようとしているという感じ?
無視しておくのがいいでしょうか。

&MCS-というのがあってびびりました。これはどのように取りあつかうのが正しい?
&MCS-ということは、他のどの文字コードにも属さない文字ということなのだと
思いますが、これは文字オブジェクトとして考えていいのですか?
それともbuiltin characterってやつですか?
あるchar_idが、builtin characterなのか文字オブジェクトなのかは
区別する方法はありますか?

IDSについては、このIDS中にある.txtファイル群が元データなのですよね。

部品について、例えばシンニョウという部品だけとっても、二つのchar-idが
あったりします。その違いはよくわからない…。
これを同じシンニョウという部品であると取り扱いたいのですが、
どのようにすればunifyできるのでしょうか?
同様に、つながっている草冠、切れてる草冠などなどもunifyしたいのですが、
どのような方法をとるのが一番いいでしょうか?

あるchar-idの文字オブジェクトを画面表示させる際に、XEmacs UTF-2000では
どのように対応するフォントを探しているのでしょうか?
以下のようなアルゴリズムを考えてみたのですが、こんな感じでしょうか。
1. ucs, ->ucs, =>ucs があれば、Unicodeのフォントとして表示
2. ideograph-daikanwa があれば、文字鏡フォントとして表示
(この部分、みんなには内緒にしなければならないのはつらいですね…。)

CDPだと「漢字庫」が使えるとのことですが、これについてどこかに解説はあ
りませんでしょうか? Cdpeudc.ttf というフォントがそれなのでしたっけ?
あれ、それともCBETAでしたっけ。

IDSがすごく分解されてる漢字とそうじゃない漢字とがあるのですが、
このへんの基準をうまくそろえる方法ってありませんか?
例えば諸橋大漢和で部首として使われている部品はそれ以上に
分解しないでほしいのですが、それをするにはどうしたらいいんでしょう。
諸橋大漢和で部首として使われている部品一覧とそのchar-idとの関係の
mapping tableとかはどこかにありませんか?

まだまだハードルは高いみたいです…。

江渡 浩一郎 2002 ＠ eto.com