ideographic-structure

守岡知彦 / MORIOKA Tomohiko tomo @ kanji.zinbun.kyoto-u.ac.jp
2004年 6月 11日 (金) 16:55:22 JST


>>>>> In [chise-ja : No.00366] 
>>>>>	Kouichirou Eto <2004 @ eto.com> wrote:

> 江渡です。昨日はお疲れ様でした。

久々に、江渡さんや上地さんとお話しできて楽しかったです。また、他にも有
名人&怪しい人々とお話しできてエキサイティングでした。

早速、Ruby/CHISE の sync 作業始めて頂きありがとうございます。


> > あと、utf-8かどうか、ですが、質問が間違えていて、chise-dbに
> > 格納されているデータの符号化はなんでしょうか?utf8-mcsでしょうか?
> > この1点だけ確認させてください。よろしくお願いします。

> 私の理解ではその通りです。

私の理解も同様です。

補足すると、CHISE-DB のキーや値を文字オブジェクト列と解釈する場合、 
Emacs Lisp 風の S 式となり、

      文字 FOO は ?FOO
      文字列 FOO は "FOO"

みたいになります。

文字オブジェクト列は各 char-ID を UTF-8 変換することによりバイト列に符
号化されています。

なお、現在の所、char-ID の UTF-8 = utf-8-mcs なのですが、utf-8-mcs で
用いる非 Unicode 文字の表現を char-ID とは別に固定化した方が良いのでは
ないかという気もしてて、将来はもしかすると別物になる可能性があります。

;; ちなみに、XEmacs CHISE では少し前に、=ucs と system-char-id を別の
;; coded-charset として分離しました。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======




More information about the CHISE-ja mailing list