文字素性の集合による文字の交換 (Re: 属性か素性か)

NIIBE Yutaka gniibe @ m17n.org
2003年 2月 18日 (火) 08:41:39 JST


MORIOKA Tomohiko wrote:
 > 文字を交換するには、文字素性の集合を交換する必要があります。例えば、
 > XEmacs CHISE の Emacs Lisp の世界なら define-char 形式で記述した文字定
 > 義をやりとりするのはこれに相当します。
 > 
 > 文字列交換の局面において同様のことをするには、CES レベルないしは文書形
 > 式レベルで文字素性の集合を表現することによって実現可能であると考えられ
 > ます。ただ、これを既存の環境・標準と整合的にやるには CES レベルでは多
 > 分無理で、現状では文書形式レベルでやらざるを得ないでしょう。

コメント。先日, 江渡さんに質問されて口頭で答えたので。

上記に加えて, 文字情報の交換の仕組の設計と実装が必要だと思います。

形式はなんでもいいのですが, 文字情報が送られてきたとしましょう。

自分のシステムに, これとまさしく一致する文字があればたぶん問題ありません。
そうでない場合, 以下のようなことになると思いますがどうでしょうか?

	(1) 自分のシステムではもっと詳しく弁別している。
	    --> 送られて来た文字を対応させるとするとどれになるか?
		(1-1) 自分で判断してどちらかとする。
		      その情報を, 送り手にも返す。
		      もしかしたらここは negotiation となるやも。

        (2) 自分のシステムではそんなに詳しく弁別していない。
	    --> 送られて来た文字を近似(?)するとどうなるか?
		(2-1) 適当に自分で判断してどれかとする。
		      その情報を, 送り手にも返す。

	(3) なんらかの矛盾が発見され, 文字情報を再構成。
		(3-1)  その情報を, 送り手にも返す。

おそらくこれまでの符号化文字集合の設計と実装には上記のようなことがあっ
たと思います。こういったさまざまなケースを挙げ, それを分析し, どう扱う
のかということを考える必要が有ると思います。

   文書 := 文字列 + 文字情報  + なにか

が送られて来る。これを自分の文字情報データベースでもって解釈を試みる。
それで文字情報データベースも更新されるし, 文書に対する解釈の情報も付け
加えられるという感じになるのでしょうか。
-- 




More information about the CHISE-ja mailing list