漢字の部品
守岡知彦 / MORIOKA Tomohiko
tomo @ m17n.org
2003年 11月 6日 (木) 00:14:10 JST
>>>>> In [utf-2000 : No.00404]
>>>>> "江渡さん" = Kouichirou Eto <2003 @ eto.com> wrote:
江渡さん> > # Chise の ML ってどっちのアドレスが正式?
江渡さん> 私も知りたいです…。
WWW 頁の記述に従うならば、XEmacs CHISE 関連は(歴史的事情で?)
utf-2000 @ m17n.org, それ以外は chise-ja @ m17n.org なんだと思いますが、
utf-2000 @ m17n.org はいっそ廃止して chise-ja @ m17n.org に一本化でも良い
かも知れませんね。
;; 個人的には、chise-*@m17n.org は職場用、utf-2000 @ m17n.org は自宅・そ
;; の他用という使い分けはあるんですけど。(^_^; (mail 環境を改善したい
;; とは思ってるんですけども)
江渡さん> あと守岡さん、できれば2002 at eto.comのほうのアドレスは消去
江渡さん> していただけませんでしょうか。
江渡さんご自身で utf-2000-ctl @ m17n.org への command mail を使ってアド
レスを消去することができると思うのですが、無理でしょうか?私が直接管理
している訳ではないので、それが可能ならそれが一番簡単だと思います。
また、御無理な場合、対象となる mailing list をお知らせください。
江渡さん> > # 余談ですが Chise って、教育漢字とか常用漢字とかみたいな
江渡さん> > # データも持ってたりするのでしょうか?
常用漢字のデータは XEmacs CHISE の source tree の
etc/char-data/jp-jouyou.txt にあります。まだ今の所入ってるだけで、利用
する code が入ってないのですが。
ちなみに、この jp-jouyou.txt を開いた状態で
(with-current-buffer "jp-jouyou.txt"
(goto-char (point-min))
(let (chr target ret)
(while (re-search-forward "^[^\t]+\t\\(.\\)" nil t)
(setq chr (aref (match-string 1) 0)
target (buffer-substring (match-end 0) (point-at-eol)))
(setq ret (get-char-attribute chr 'script))
(add-to-list 'ret 'Ideograph)
(add-to-list 'ret 'JP-Jouyou)
(put-char-attribute chr 'script ret)
(if (and (> (length target) 0)
(eq (aref target 0) ?\t)
(setq target (split-string
(substring target 1) " ")))
(put-char-attribute chr '<-simplified @ jp-jouyou
(mapcar (lambda (cell)
(aref cell 0))
target)))
)))
を評価すれば、常用漢字の文字の script 素性(シンボルのリスト)に
JP-Jouyou とIdeograph という要素が追加されるとともに、
<-simplified @ jp-jouyou 素性(文字参照(文字)のリスト)に常用漢字表に
書かれた対応する『康煕体』の文字のリストが入ります。
この後、
(save-char-attribute-table 'script)
(save-char-attribute-table '<-simplified @ jp-jouyou)
を評価すれば、Ruby/CHISE や Perl/CHISE などからもこれらのデータが利用
できるようになると思います。
;; 近い内に、上記 code を XEmacs CHISE に merge します。
--
守岡 知彦 (MORIOKA Tomohiko) <tomo @ kanji.zinbun.kyoto-u.ac.jp>
More information about the CHISE-ja
mailing list