ideographic-structure
守岡知彦 / MORIOKA Tomohiko
tomo @ kanji.zinbun.kyoto-u.ac.jp
2004年 6月 11日 (金) 16:55:22 JST
>>>>> In [chise-ja : No.00366]
>>>>> Kouichirou Eto <2004 @ eto.com> wrote:
> 江渡です。昨日はお疲れ様でした。
久々に、江渡さんや上地さんとお話しできて楽しかったです。また、他にも有
名人&怪しい人々とお話しできてエキサイティングでした。
早速、Ruby/CHISE の sync 作業始めて頂きありがとうございます。
> > あと、utf-8かどうか、ですが、質問が間違えていて、chise-dbに
> > 格納されているデータの符号化はなんでしょうか?utf8-mcsでしょうか?
> > この1点だけ確認させてください。よろしくお願いします。
> 私の理解ではその通りです。
私の理解も同様です。
補足すると、CHISE-DB のキーや値を文字オブジェクト列と解釈する場合、
Emacs Lisp 風の S 式となり、
文字 FOO は ?FOO
文字列 FOO は "FOO"
みたいになります。
文字オブジェクト列は各 char-ID を UTF-8 変換することによりバイト列に符
号化されています。
なお、現在の所、char-ID の UTF-8 = utf-8-mcs なのですが、utf-8-mcs で
用いる非 Unicode 文字の表現を char-ID とは別に固定化した方が良いのでは
ないかという気もしてて、将来はもしかすると別物になる可能性があります。
;; ちなみに、XEmacs CHISE では少し前に、=ucs と system-char-id を別の
;; coded-charset として分離しました。
--
===『幾千億の分子に分かれても ========================================
決して忘れない。
この宇宙が終るまで』 守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======
More information about the CHISE-ja
mailing list