CHISE IDSを色々といぢっています。
守岡知彦 / MORIOKA Tomohiko
tomo @ m17n.org
2004年 12月 13日 (月) 18:37:27 JST
>>>>> In [chise-ja : No.00399]
>>>>> "守岡" = tomo @ m17n.org (守岡知彦 / MORIOKA Tomohiko) wrote:
守岡> U+4EB5 のような例は賛成です(⿴衣执 にすべきなのかも)。
関数 ids-parse-string, ids-read-buffer, ids-read-file は optional 引数
で IDS 単純化(IDS 中の部分木に対応する文字が存在する場合、部分木を文
字に置き換える)を行うことができます。
例えば、
(ids-parse-string "⿳亠⿰⺘丸&CDP-8B67;")
を評価すると
((ideographic-structure ?⿳ ?亠
((ideographic-structure ?⿰ ?⺘ ?丸)) ?&CDP-8B67;))
となりますが
(ids-parse-string "⿳亠⿰⺘丸&CDP-8B67;" t)
の場合、
((ideographic-structure ?⿳ ?亠 ?执 ?&CDP-8B67;))
となります。
-------------- next part --------------
同様に、ids/install-ids.el の
(setq load-ids-simplify nil)
の所を
(setq load-ids-simplify t)
にして、CHISE-IDS を make install すれば、単純化された IDS が CHISE DB
に取り込まれます(でも、著しく遅くなります)。
これを ids-dump-ucs-* で書き出せば、この作業は自動化できます。
;; check はした方が良いけど。
以上、FYI でした。
--
===『幾千億の分子に分かれても ========================================
決して忘れない。
この宇宙が終るまで』 守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======
More information about the CHISE-ja
mailing list