朝日文字について

2003年 1月 22日 (水) 23:57:30 JST

江渡です。

> 江渡さん> 守岡さんのメールにあった朝日文字についてちょっと考えてみたの
> 江渡さん> ですが、UTF-2000モデルの原理的に考えると、文字について問題が
> 江渡さん> ある場合は、全てその問題を解決可能とするべきだと思います。つ
> 江渡さん> まり朝日文字についても、変換可能であるのならば、変換の手段を
> 江渡さん> 提供するべきだと思います。
> 
> 私もそう思いますし、多分、師さんもそのつもりじゃないでしょうか。
> 
> 私がここで対象にしてるのは XEmacs UTF-2000 とか libchise に附属するよ
> うな文字データベースの基本セットについてです。私は、この種のものは多く
> の人が使いそうな辞書的な性格のものになるのではないかと思っています。そ
> して、その範囲をどうするのが良いかということです。
> 
> XEmacs UTF-2000 にせよ libchise にせよ、文字定義の拡張可能性は当然の前
> 提なので、もし基本セットに収録しないとしたら、後付けすることになります
> （例えば、現状では CHISE-ids database はそうなってますよね）。

私は、朝日文字については標準では対処しないのがいいと思います。
正確には、標準で付属する文字データベースの基本セットには、
朝日文字を扱うためのデータを
混ぜないほうがいいと思います。

そしてなんらかの方法で、必要に応じて明示的に指定した場合、
そのデータが使えるようになるというのがいいと思います。
そしてそのなんらかの方法で、というのが、IDSのような分離ではなく、
もっとすごく簡単な方法であるといいと思います。
たとえば、inlcude AsahiCharacter といれるだけで使えるようになるとか。

このときデータベースを持ってくるという手間さえ省けるように、
ネットワークデータベースになってるといいなぁと思いますが、
とりあえずそれを目指すには時期がはやいかもしれませんね。

=jisx-0208のときに思いましたが、そのデータベースがどのような知識を
指定しているかをプログラムが吸収しているというモデルだと、結局のところ
データベースの組み方がかわったらプログラムでそれを吸収する必要があります。
つまりやはり、APIなどのレベルでレイヤーをもうけて、使いたい人はこの
レイヤーで使う。そうやってデータベース構造の変化を吸収できるように
するべきだと思います。

> これも予定では 2001 年度にできてるはずだったんですよね。うぐぐ。でまあ、
> そのために PostgreSQL を使おうとしてた訳ですが、これはあんまり受けが良
> くないんですよね。Wittern さんの実装がそれなりのパフォーマンスで動いた
> ら他もやるにせよ PostgreSQL 系実装もありにしたいなあと思ってるんですが。

もちろんやるなと言ってるわけではなく、それよりも先にすませておくべき
ことがあるんじゃないでしょうか、と言っているだけです。

libchiseみたいなのができて、APIのレベルでデータベースの変化を吸収できる
ようになったら、いくらでもデータベースの実装は変えてもいいと思います。
変化を吸収できれば、いくらでも実装を変えても問題がない。
それに意味があるかどうかはまた別の問題ですが。

LDAPなども興味深いですが、なんだか私の勘では、データベースのネットワーク化は
大変なわりには実りは少ないんじゃないかという気がします。
普通はみんなデータベースをHDDにおいて使うんじゃないでしょうか。

> ;; 知識データベース（ナレッジベース）... ぼそ。

これはどんなのでしょうか。Semantic Web?

江渡 浩一郎 new! 2003 ＠ eto.com