漢字の部品化

守岡知彦 / MORIOKA Tomohiko tomo @ kanji.zinbun.kyoto-u.ac.jp
2002年 11月 18日 (月) 19:11:12 JST


>>>>> In [chise-ja : No.00048] 
>>>>>	"江渡さん" = 江渡 浩一郎 <2002 @ eto.com> wrote:

江渡さん> BDBを直接叩いて、what-char-definitionと同等な操作をするとこ
江渡さん> ろまではできました。それで見てみたのですが、それぞれの漢字に
江渡さん> ついて、部首の情報を取得することはできたようなのですが、それ
江渡さん> 以上の情報がとれません。

江渡さん> 例えば「字」の情報をとると、
江渡さん> chinese-big5 0xA672
江渡さん> chinese-cns11643-1 0x4773
江渡さん> chinese-gb2312 0x5756
江渡さん> chinese-isoir165 0x5756
江渡さん> ideograph-daikanwa 0x1B1E
江渡さん> ideographic-radical 39
江渡さん> ideographic-strokes 3
江渡さん> japanese-jisx0208 0x3B7A
江渡さん> japanese-jisx0208-1978 0x3B7A
江渡さん> japanese-jisx0208-1990 0x3B7A
江渡さん> korean-ksc5601 0x6D2E
江渡さん> shinjigen-2 0x06F1
江渡さん> total-strokes 6
江渡さん> ucs U+5B57

江渡さん> となり、ideographic-radicalが39、これは部首であるウカンムリ
江渡さん> を表しているのですよね。しかし、ウカンムリと子から成っている
江渡さん> という情報はどうやったら取得できるのでしょうか? 
江渡さん> IDS-UCS-Basic.txtを直接叩く?
江渡さん> しかし藤原さんの論文のときには、IDSのファイルは使ってなかっ
江渡さん> たのですよね?

まだ ids package の中身は XEmacs UTF-2000 に merge されてないので、ids
package の提供する関数 ids-read-file で取り込む必要があります。でもっ
て私はこんなのを使ってます:

-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: load-ids.el
型:         application/octet-stream
サイズ:     905 バイト
説明:       無し
URL:        <http://lists.chise.org/pipermail/chise-ja/attachments/20021118/3ac63839/attachment.obj>
-------------- next part --------------

IDS file の置いてある場所が ~/projects/chise/ids/ に決め打ちになってい
るので、ここを ids package のある場所に変えて実行してください。なお、
save-char-attribute-table で XEmacs UTF-2000 の install 先の文字データ
ベースを書き換えるので XEmacs UTF-2000 を install の install 先に書き
込める権限が必要です。また、一度実行すれば次に XEmacs UTF-2000 を make
install するまでこれを実行する必要はありません。

;; 整理して Makefile に仕込もうと思ってるんですが、時間がなくてまだやっ
;; てません。


江渡さん> そのとき使っていたelispコードを実行してみたのですが、ここで
江渡さん> 使っている数値はadhocなものと聞いたのですが、この数値をUCSな
江渡さん> どの転用可能な数値にするにはどのようにコードを変更したらいい
江渡さん> のか、できれば教えてもらえませんでしょうか?

対応する ucs もしくは =>ucs (もしくは、
(=>)ucs-({gb|jis|cns|ks|big5}(*))) があればその値が UCS の番号となりま
す。

逆に UCS の番号に対応する文字 object が欲しい場合は
char-db/ucs/system-char-id をひきます。(他の CCS も同様です)

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======


More information about the CHISE-ja mailing list