数値変換

守岡知彦 / MORIOKA Tomohiko tomo @ kanji.zinbun.kyoto-u.ac.jp
2003年 10月 4日 (土) 22:11:16 JST


>>>>> In [chise-ja : No.00235] 
>>>>>	"江渡さん" = Kouichirou Eto <2003 @ eto.com> wrote:

江渡さん> numeric_valueの情報を見ていて疑問に思ったのですが、
江渡さん> 例えば、「百」とか「千」とかの漢字を、100とか1000とかの
江渡さん> 数値に対応させるということはしないのでしょうか。
江渡さん> 逆に言うと、numeric_valueに登録されるか否かの基準はどこで
江渡さん> 設定しているのでしょうか。

非漢字のデータは昔の UnicodeData をベースにしてて、そして、UnicodeData
では漢字とか文字の多いスクリプトの情報が省略されるためにこうなっている
と思います。

そういう点では、漢数字にも付けるのは良いと思います。


江渡さん> いやちょっとした遊びで、
江渡さん> p "一千億".to_i # 100000000000
江渡さん> とかできると楽しいかもと思ったのですが…。

良いですね。逆も欲しいかも。


ところで、CHISE 文字データベースのソースを UnicodeData や Unihan への
差分にできないかなあということをちょっと思ってます。そして、libchise
に UnicodeData や Unihan などの基本的なデータを附属させて、XEmacs
CHISE を install するとそれが拡張され、CHISE-IDS を install すると
さらに ideographic-structure が拡張され、…という風にする訳です。もっ
とも、まだ良い方法が思い浮かんでないんですが。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======




More information about the CHISE-ja mailing list