CHISE IDSを色々といぢっています。

守岡知彦 / MORIOKA Tomohiko tomo @ m17n.org
2004年 12月 13日 (月) 18:37:27 JST


>>>>> In [chise-ja : No.00399] 
>>>>>	"守岡" = tomo @ m17n.org (守岡知彦 / MORIOKA Tomohiko) wrote:

守岡> U+4EB5 のような例は賛成です(⿴衣执 にすべきなのかも)。

関数 ids-parse-string, ids-read-buffer, ids-read-file は optional 引数
で IDS 単純化(IDS 中の部分木に対応する文字が存在する場合、部分木を文
字に置き換える)を行うことができます。

例えば、

(ids-parse-string "⿳亠⿰⺘丸&CDP-8B67;")

を評価すると

((ideographic-structure ?⿳ ?亠
			((ideographic-structure ?⿰ ?⺘ ?丸)) ?&CDP-8B67;))

となりますが

(ids-parse-string "⿳亠⿰⺘丸&CDP-8B67;" t)

の場合、

((ideographic-structure ?⿳ ?亠 ?执 ?&CDP-8B67;))

となります。

-------------- next part --------------
同様に、ids/install-ids.el の

	(setq load-ids-simplify nil)

の所を

	(setq load-ids-simplify t)

にして、CHISE-IDS を make install すれば、単純化された IDS が CHISE DB 
に取り込まれます(でも、著しく遅くなります)。

これを ids-dump-ucs-* で書き出せば、この作業は自動化できます。

;; check はした方が良いけど。

以上、FYI でした。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======


More information about the CHISE-ja mailing list