常用漢字表 (Re: 漢字の部品)
守岡知彦 / MORIOKA Tomohiko
tomo @ kanji.zinbun.kyoto-u.ac.jp
2004年 2月 19日 (木) 15:27:22 JST
>>>>> In [chise-ja : No.00280]
>>>>> "守岡" = tomo @ kanji.zinbun.kyoto-u.ac.jp (守岡知彦 / MORIOKA
Tomohiko) wrote:
守岡> 常用漢字のデータは XEmacs CHISE の source tree の
守岡> etc/char-data/jp-jouyou.txt にあります。まだ今の所入ってるだけで、
守岡> 利用する code が入ってないのですが。
1月15日頃に常用漢字表のデータのうち、常用漢字に対する(いわゆる)『舊
漢字』の情報のみ XEmacs CHISE 附属の文字データベースに取り込みました。
なお、素性名は `<-simplified @ JP/Jouyou' です。
よって、
守岡> ちなみに、この jp-jouyou.txt を開いた状態で
守岡> (with-current-buffer "jp-jouyou.txt"
守岡> (goto-char (point-min))
守岡> (let (chr target ret)
守岡> (while (re-search-forward "^[^\t]+\t\\(.\\)" nil t)
守岡> (setq chr (aref (match-string 1) 0)
守岡> target (buffer-substring (match-end 0) (point-at-eol)))
守岡> (setq ret (get-char-attribute chr 'script))
守岡> (add-to-list 'ret 'Ideograph)
守岡> (add-to-list 'ret 'JP-Jouyou)
守岡> (put-char-attribute chr 'script ret)
守岡> (if (and (> (length target) 0)
守岡> (eq (aref target 0) ?\t)
守岡> (setq target (split-string
守岡> (substring target 1) " ")))
守岡> (put-char-attribute chr '<-simplified @ jp-jouyou
守岡> (mapcar (lambda (cell)
守岡> (aref cell 0))
守岡> target)))
守岡> )))
守岡> を評価すれば、常用漢字の文字の script 素性(シンボルのリスト)に
守岡> JP-Jouyou とIdeograph という要素が追加されるとともに、
守岡> <-simplified @ jp-jouyou 素性(文字参照(文字)のリスト)に常用漢
守岡> 字表に書かれた対応する『康煕体』の文字のリストが入ります。
守岡> この後、
守岡> (save-char-attribute-table 'script)
守岡> (save-char-attribute-table '<-simplified @ jp-jouyou)
守岡> を評価すれば、Ruby/CHISE や Perl/CHISE などからもこれらのデータ
守岡> が利用できるようになると思います。
はもう不要です。
また、
守岡> また、さっき commit した tomoyo-tools の命令
守岡> ideo-translate-region-into-traditional を使えば、指定した領域の
守岡> 常用漢字を『康煕体』に変換できます。「弁」のように複数候補があり
守岡> うる場合はmenu で選択になりますが、いまいち UI のできは良くない
守岡> ので、どんどん改良してみてください。(ぱぱっと書いた code なので)
守岡> ちなみに、tomoyo-tools は anonymous CVS で取り出せます。
守岡> ** cvs login (first time only)
守岡> % cvs -d :pserver:anonymous @ cvs.m17n.org:/cvs/chise login
守岡> CVS password: [CR] # NULL string
守岡> ** checkout
守岡> % cvs -d :pserver:anonymous @ cvs.m17n.org:/cvs/chise co tomoyo-tools
守岡> ** install
守岡> % make install
守岡> なお、installer を動かすのに、APEL が必要です。また、install 前
守岡> に予め site-packages/ の場所を作っておくことをお勧めします(もし、
守岡> なかった場合)。
の最新版はこの情報に対応しています。
即ち、M-x ideo-translate-region-into-traditional [CR] で麥谷先生作の
jitai.el の内、『正字体』変換と同様なことが実現できます。
;; XEmacs CHISE では CCS 変換は coding-system でできるので、あとは『正
;; 字体』→『常用漢字』変換が足りないだけでしょうか?
;; それから、ideo-translate-region-into-traditional をもう少し一般化し
;; て、常用漢字→『舊 漢字』、簡体字→『繁体字』などの変換の切替えの指
;; 定ができるようにしたり、利用者の定義した変換法を組み込めるしたいん
;; ですけど、ご意見・ご提案ありませんか?
;;; 必要に迫られる毎に行き当たりばったりに作ってるのもので、一般化がで
;;; きてません。(^_^;;;
それから、2月6日に「発」の『舊漢字』の情報が間違っていることに気づき修
正しました(余計なてへんを付けていた)。もし、以前にお使いの方、変換結
果をお確かめください。
--
===『幾千億の分子に分かれても ========================================
決して忘れない。
この宇宙が終るまで』 守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======
More information about the CHISE-ja
mailing list