常用漢字表 (Re: 漢字の部品)

守岡知彦 / MORIOKA Tomohiko tomo @ kanji.zinbun.kyoto-u.ac.jp
2004年 2月 19日 (木) 15:27:22 JST


>>>>> In [chise-ja : No.00280] 
>>>>>	"守岡" = tomo @ kanji.zinbun.kyoto-u.ac.jp (守岡知彦 / MORIOKA
	Tomohiko) wrote:

守岡> 常用漢字のデータは XEmacs CHISE の source tree の
守岡> etc/char-data/jp-jouyou.txt にあります。まだ今の所入ってるだけで、
守岡> 利用する code が入ってないのですが。

1月15日頃に常用漢字表のデータのうち、常用漢字に対する(いわゆる)『舊
漢字』の情報のみ XEmacs CHISE 附属の文字データベースに取り込みました。

なお、素性名は `<-simplified @ JP/Jouyou' です。


よって、

守岡> ちなみに、この jp-jouyou.txt を開いた状態で

守岡> (with-current-buffer "jp-jouyou.txt"
守岡>   (goto-char (point-min))
守岡>   (let (chr target ret)
守岡>     (while (re-search-forward "^[^\t]+\t\\(.\\)" nil t)
守岡>       (setq chr (aref (match-string 1) 0)
守岡>             target (buffer-substring (match-end 0) (point-at-eol)))
守岡>       (setq ret (get-char-attribute chr 'script))
守岡>       (add-to-list 'ret 'Ideograph)
守岡>       (add-to-list 'ret 'JP-Jouyou)
守岡>       (put-char-attribute chr 'script ret)
守岡>       (if (and (> (length target) 0)
守岡> 	       (eq (aref target 0) ?\t)
守岡> 	       (setq target (split-string
守岡> 			     (substring target 1) " ")))
守岡> 	  (put-char-attribute chr '<-simplified @ jp-jouyou
守岡> 			      (mapcar (lambda (cell)
守岡> 					(aref cell 0))
守岡> 				      target)))
守岡>       )))

守岡> を評価すれば、常用漢字の文字の script 素性(シンボルのリスト)に 
守岡> JP-Jouyou とIdeograph という要素が追加されるとともに、
守岡> <-simplified @ jp-jouyou 素性(文字参照(文字)のリスト)に常用漢
守岡> 字表に書かれた対応する『康煕体』の文字のリストが入ります。

守岡> この後、

守岡> (save-char-attribute-table 'script)
守岡> (save-char-attribute-table '<-simplified @ jp-jouyou)

守岡> を評価すれば、Ruby/CHISE や Perl/CHISE などからもこれらのデータ
守岡> が利用できるようになると思います。

はもう不要です。


また、

守岡> また、さっき commit した tomoyo-tools の命令
守岡> ideo-translate-region-into-traditional を使えば、指定した領域の
守岡> 常用漢字を『康煕体』に変換できます。「弁」のように複数候補があり
守岡> うる場合はmenu で選択になりますが、いまいち UI のできは良くない
守岡> ので、どんどん改良してみてください。(ぱぱっと書いた code なので)


守岡> ちなみに、tomoyo-tools は anonymous CVS で取り出せます。

守岡> ** cvs login (first time only)

守岡>   % cvs -d :pserver:anonymous @ cvs.m17n.org:/cvs/chise login

守岡>   CVS password: [CR] # NULL string

守岡> ** checkout

守岡>   % cvs -d :pserver:anonymous @ cvs.m17n.org:/cvs/chise co tomoyo-tools

守岡> ** install

守岡>   % make install

守岡> なお、installer を動かすのに、APEL が必要です。また、install 前
守岡> に予め site-packages/ の場所を作っておくことをお勧めします(もし、
守岡> なかった場合)。

の最新版はこの情報に対応しています。

即ち、M-x ideo-translate-region-into-traditional [CR] で麥谷先生作の
jitai.el の内、『正字体』変換と同様なことが実現できます。

;; XEmacs CHISE では CCS 変換は coding-system でできるので、あとは『正
;; 字体』→『常用漢字』変換が足りないだけでしょうか?


;; それから、ideo-translate-region-into-traditional をもう少し一般化し
;; て、常用漢字→『舊 漢字』、簡体字→『繁体字』などの変換の切替えの指
;; 定ができるようにしたり、利用者の定義した変換法を組み込めるしたいん
;; ですけど、ご意見・ご提案ありませんか?

;;; 必要に迫られる毎に行き当たりばったりに作ってるのもので、一般化がで
;;; きてません。(^_^;;;


それから、2月6日に「発」の『舊漢字』の情報が間違っていることに気づき修
正しました(余計なてへんを付けていた)。もし、以前にお使いの方、変換結
果をお確かめください。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======




More information about the CHISE-ja mailing list