UTF-2000の本質とは
Kouichirou Eto
2002 @ eto.com
2002年 8月 27日 (火) 20:16:26 JST
江渡です。
> 「具体的」というのがどのレベルなのかが判らないですが、多分、ビット組合
> せ・バイト列レベルには言及してないので、TRON みたいに独自のコードを作
> ろうという話ではないはずです。
具体的にというのは要するに、ある適当な文字列があるとして、メモリやファ
イル上にビット列、バイト列としてどのような形で存在しているのかという
ことです。どうもそんな話じゃないらしいということもわかってきましたが…。
> XEmacs UTF-2000 に関していえば、こういう分類でいえば、内部コードを問題
> にしています。
>
> 一方、CHISE Project では CHISE 環境全体を対象にすることになります。
> (コード列も文字オブジェクトへのポインターとして解釈されます)
UTF-2000の利点を考えてみると、原理的に外字が存在しない、存在する必要
がないということではないかと思います。しかしそうすると、常に無限個の
文字が存在するということになり、ある文字が普通に存在する文字なのか、
そうでないのかを判定する方法が無くなってしまいます。一般的には。
そこで質問なのですが、文字とは一体何でしょうか?
> ;; 内部と外部とかいうと、オートポイエーシスの概念が頭をよぎったりして、
> ;; つい「内部も外部もない(入力も出力もない;システムに外部はない)」
> ;; とか言いたくなっちゃうんですが、文字符号化の歴史(を含めた文字表現
> ;; の歴史)を見れば、そういう側面は多々あったと思います。つまり、『内
> ;; 部表現』として導入されたものは大抵それに留まらず『外部』との情報交
> ;; 換にも使われてきたと思います(例:シフト JIS)。また、Shift_JIS で
> ;; 符号化された XML 文書中の文字の XML 層での解釈は JIS X 0208:1990 で
> ;; はなく Unicode で行われ、その文書が表現する文字は Unicode のものと
> ;; は限らない、とか、Internet の mail 形式では STD 11 層では全てが
> ;; US-ASCII で解釈されるが、MIME 層では同じものが MIME-charset によっ
> ;; て様々な符号で解釈される、というように、メタ・ベース言語とか「表さ
> ;; れるもの」と「表すもの」は必ずしも一致しないという形式言語や記号の
> ;; 一般的な性質は文字表現でも当てはまります。その点でも、「内部コード」
> ;; 「外部コード」というのはちょっといまいちかなと思います。言い替えに
> ;; 過ぎないかも知れないけど、「シリアライズ」とかいう方が個人的には好
> ;; きです。
外部というのをどう定義するかはいろいろありますが、とりあえず文字符号
化という事象一般に関して言えば、それはまず非常に政治的なやりとりであ
ると思います。そのような意味での外部というのは常にある。
そこで知りたいのは、そのような政治的な意味での外部とはどのように関係
していこうと考えているのでしょうか。最終的にはCHISE projectがなんら
かの規約や標準を提供しようと考えているのか、それともそういったことと
は関係無く、純粋に技術的な実験であるとして続けていこうとしているのか。
また別の話で、以前守岡さんにはお話ししたのですが、再度メーリングリス
ト上で書いておきます。UTF-2000というネーミングはとても悪いと思います。
いろいろ議論していてどのようなものを目指しているのかがわかってきたの
ですが、それは文字をコード化(数値化)するという発想から逃れた上でどの
ようにコンピュータで文字を扱うことができるかを試みるという非常にラディ
カルな実験であると思うのですが、しかしUTF-2000という名前で直感的に印
象付けられるのはその正反対であり、つまりコード化(数値化)を徹底して、
今まで以上にあらゆる文字にコードをわりふろうとしているプロジェクトな
のだと直感的に思っていました。つまり伝えるべき印象と正反対の印象を与
えてしまっているのです。
これは直観の話なので、私だけの印象じゃないかという判断もなりたちうる
のですが、そもそも私の仕事は直観を形にすることなので、プロの判断とし
てそう思いました。
> かえって混乱させちゃったらごめんなさい。
いえいえ、とんでもない。これ以上混乱しようが無いので御安心を。:-)
江渡 浩一郎
More information about the CHISE-ja
mailing list