漢字の部品化

2002年 11月 18日 (月) 04:48:40 JST

江渡です。簡単な経過報告と質問です。

BDBを直接叩いて、what-char-definitionと同等な操作をするところまでは
できました。それで見てみたのですが、それぞれの漢字について、部首の
情報を取得することはできたようなのですが、それ以上の情報がとれません。

例えば「字」の情報をとると、
chinese-big5 0xA672
chinese-cns11643-1 0x4773
chinese-gb2312 0x5756
chinese-isoir165 0x5756
ideograph-daikanwa 0x1B1E
ideographic-radical 39
ideographic-strokes 3
japanese-jisx0208 0x3B7A
japanese-jisx0208-1978 0x3B7A
japanese-jisx0208-1990 0x3B7A
korean-ksc5601 0x6D2E
shinjigen-2 0x06F1
total-strokes 6
ucs U+5B57

となり、ideographic-radicalが39、これは部首であるウカンムリを表して
いるのですよね。しかし、ウカンムリと子から成っているという情報はどう
やったら取得できるのでしょうか? IDS-UCS-Basic.txtを直接叩く?
しかし藤原さんの論文のときには、IDSのファイルは使ってなかったのですよね?

そのとき使っていたelispコードを実行してみたのですが、ここで使っている
数値はadhocなものと聞いたのですが、この数値をUCSなどの転用可能な数値
にするにはどのようにコードを変更したらいいのか、できれば教えてもらえ
ませんでしょうか?

江渡 浩一郎 2002 ＠ eto.com
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: calc-network.el
型:         application/octet-stream
サイズ:     5799 バイト
説明:       無し
URL:        <http://lists.chise.org/pipermail/chise-ja/attachments/20021118/99f0c332/attachment.obj>
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: nw.txt
型:         application/octet-stream
サイズ:     8023 バイト
説明:       無し
URL:        <http://lists.chise.org/pipermail/chise-ja/attachments/20021118/99f0c332/attachment-0001.obj>