漢字の部品化
江渡 浩一郎
2002 @ eto.com
2002年 11月 18日 (月) 04:48:40 JST
江渡です。簡単な経過報告と質問です。
BDBを直接叩いて、what-char-definitionと同等な操作をするところまでは
できました。それで見てみたのですが、それぞれの漢字について、部首の
情報を取得することはできたようなのですが、それ以上の情報がとれません。
例えば「字」の情報をとると、
chinese-big5 0xA672
chinese-cns11643-1 0x4773
chinese-gb2312 0x5756
chinese-isoir165 0x5756
ideograph-daikanwa 0x1B1E
ideographic-radical 39
ideographic-strokes 3
japanese-jisx0208 0x3B7A
japanese-jisx0208-1978 0x3B7A
japanese-jisx0208-1990 0x3B7A
korean-ksc5601 0x6D2E
shinjigen-2 0x06F1
total-strokes 6
ucs U+5B57
となり、ideographic-radicalが39、これは部首であるウカンムリを表して
いるのですよね。しかし、ウカンムリと子から成っているという情報はどう
やったら取得できるのでしょうか? IDS-UCS-Basic.txtを直接叩く?
しかし藤原さんの論文のときには、IDSのファイルは使ってなかったのですよね?
そのとき使っていたelispコードを実行してみたのですが、ここで使っている
数値はadhocなものと聞いたのですが、この数値をUCSなどの転用可能な数値
にするにはどのようにコードを変更したらいいのか、できれば教えてもらえ
ませんでしょうか?
江渡 浩一郎 2002 @ eto.com
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: calc-network.el
型: application/octet-stream
サイズ: 5799 バイト
説明: 無し
URL: <http://lists.chise.org/pipermail/chise-ja/attachments/20021118/99f0c332/attachment.obj>
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: nw.txt
型: application/octet-stream
サイズ: 8023 バイト
説明: 無し
URL: <http://lists.chise.org/pipermail/chise-ja/attachments/20021118/99f0c332/attachment-0001.obj>
More information about the CHISE-ja
mailing list