JIS X 0208 related CCSs (Re: UTF-2000 char-db)

Kouichirou Eto 2003 @ eto.com
2003年 1月 16日 (木) 01:03:18 JST


江渡です。

jisx0208について、よくわかりました。何もついてないやつが、1983年版を
意味してたのですね。ようやく謎がとけた。

> 余談ですが、CCS の性質に関する情報も外部データベースに書き出すようにし
> た方が良いと思います。
> 
> CCS 以外の文字属性に関しても、簡単な説明、型、define-char 形式での
> format, 実体参照形式での format 等の情報(他にもいろいろあると思います
> が)を書き出すのが良いかなと思っています。

私も外部化したほうがいいと思いますが、プログラムではない形で外部化するには
どうしたらいいか、いい案はありません。

とりあえずRuby/UTF-2000ではTestCaseを充実させて、それを仕様兼使用方法って
ことにしようかなと思ってますが…。

実体参照とか外部化したほうがいい感じがしますが、どうやればいいのか謎ですよね。
たしかに、Codesysのデータベースなんてのがあってもいいかもしれませんね。

p CodesysDB.get("japanese-jisx0208-1990").entity_reference_prefix
"J90-"
とか、こういう感じかしらん。

あと関係ないかもしれないですけど、前に議論のときにちらっと言いましたが、
形式的には実体参照なんだけど、その中にS式が書ける実体参照っていうのが
あると面白いかもしれないなと思いました。
どんな風に書けるのか、よくわからないんだけど。

今の実装だと、既存の文字コード体系にあてはまらない文字を実体参照として
書き出すときは、&MCS-........;という形式で書き出すことになってますが、
これって本当は見せちゃいけない情報で、むしろこれを見せるくらいなら、
属性の束そのものを実体参照として書き出すほうがむしろいいんじゃないかと
思っていて、そこから考えました。

もちろんすでに「実体」じゃなくなっているので、属性参照とかそういう用語を
別に作っちゃったほうがいいですけど。

しかしなんで、&MCS-が登場してくることがありうるのか、いまいちまだ原理が
把握できてないです。

> また、CCS 以外の文字属性に関しても継承を導入した方が良いかなとか、その
> 場合、多重継承を許すべきか否かということも考えてます。

うーん、悩みどころですね。あまり複雑にするのは好みじゃないので
できるだけシンプルにとどめておきたいのですが、たしかにデータベースを
整理したい気持もわかります。

BDBよりは多機能で、例えば逆引きなどもデータベース自身の機能としてもっていて、
しかしPostgreSQLみたいに重くないデータベースってないですかね。
BDBみたいに気軽にプログラムの一部に取りこめて、しかももう少し高機能みたいな。

江渡 浩一郎 new! 2003 @ eto.com






More information about the CHISE-ja mailing list