文字素性の集合による文字の交換 (Re: 属性か素性か)

守岡知彦 / MORIOKA Tomohiko tomo @ kanji.zinbun.kyoto-u.ac.jp
2003年 2月 18日 (火) 18:54:02 JST


>>>>> In [chise-ja : No.00176] 
>>>>>	"g新部さん" = NIIBE Yutaka <gniibe @ m17n.org> wrote:

g新部さん> 上記に加えて, 文字情報の交換の仕組の設計と実装が必要だと思
g新部さん> います。

g新部さん> 形式はなんでもいいのですが, 文字情報が送られてきたとしましょ
g新部さん> う。

g新部さん> 自分のシステムに, これとまさしく一致する文字があればたぶん
g新部さん> 問題ありません。そうでない場合, 以下のようなことになると思
g新部さん> いますがどうでしょうか?

g新部さん> 	(1) 自分のシステムではもっと詳しく弁別している。
g新部さん> 	    --> 送られて来た文字を対応させるとするとどれになるか?
g新部さん> 		(1-1) 自分で判断してどちらかとする。
g新部さん> 		      その情報を, 送り手にも返す。
g新部さん> 		      もしかしたらここは negotiation となるやも。

g新部さん>         (2) 自分のシステムではそんなに詳しく弁別していない。
g新部さん> 	    --> 送られて来た文字を近似(?)するとどうなるか?
g新部さん> 		(2-1) 適当に自分で判断してどれかとする。
g新部さん> 		      その情報を, 送り手にも返す。

g新部さん> 	(3) なんらかの矛盾が発見され, 文字情報を再構成。
g新部さん> 		(3-1)  その情報を, 送り手にも返す。

これらを実現するための基礎として、「文字素性の束」(char-spec) に対する
集合演算が必要だといえます。

(1), (2) は char-spec の包含関係を調べる述語 (char-subsetp) によって実
現できます。

(3) は char-spec の差分を調べる関数 (char-spec-difference) によって実
現できます。


g新部さん> おそらくこれまでの符号化文字集合の設計と実装には上記のよう
g新部さん> なことがあったと思います。こういったさまざまなケースを挙げ, 
g新部さん> それを分析し, どう扱うのかということを考える必要が有ると思
g新部さん> います。

g新部さん>    文書 := 文字列 + 文字情報  + なにか

g新部さん> が送られて来る。これを自分の文字情報データベースでもって解
g新部さん> 釈を試みる。それで文字情報データベースも更新されるし, 文書
g新部さん> に対する解釈の情報も付け加えられるという感じになるのでしょ
g新部さん> うか。

今は、事実上、文字定義をシステム単位に持たざるを得ませんが、本当はテキ
スト単位に持つ(というか、文字の出現毎に持つ)という方が良いと思います。
そして、共有文字データベースの実現・利用し、各アプリケーション・プロセ
ス中の文字オブジェクト空間と共有文字データベース中の文字空間を分離する
(さらに、複数の文字データベース・システムの利用を想定する)現在の
CHISE プロジェクトの方向性を考えると、全ての文字オブジェクトが共有文字
データベース上で定義されているというのは現実的ではなく、共有文字データ
ベース上のオブジェクトは代表例として考え、テキスト中の文字オブジェクト
はそこから生成されたインスタンスとして扱うのが良いと思います。

文字オブジェクトは任意の詳細さで生成可能なものなので、文書を受け取るこ
と自体には知識は不要だといえます。文字データベースは明示されていない知
識を補うために必要なもので、言い替えれば、なんらかの処理(表示や検索も
その一つ)を行う時にはじめて必要なものだといえます。

一方、(交換を目的とする)文書を作りだす時には、架空の文字オブジェクト
を作らないために、使用する全ての文字に対して、共有文字データベース中の
文字との関係を保証する必要があると思います。すなわち、共有文字データベー
ス中に存在しない文字を使おうと思う場合、文字を定義する必要があります。
この文書を作りだすということには、既存の文書を再利用することも含まれま
す。複数の文書を混ぜる場合、両者の文字定義を整合させる必要がありますし、
その結果を共有文字データベース中に保存する必要があると思います。

これまでの符号化文字集合でいえば、符号位置に対応する文字の実在性を保証
することで、通常は出典を明確にすることによって行われます。従来、文字符
号にとってもっとも重要だったのは多分このことで、JIS X 0208:1997 および 
JIS X 0213:2000 を除けば、弁別に関することはあまりシリアスに考えられて
来なかったと思います。JIS X 0208:1997 や 0213:2000 にしても分析してそ
うしたというよりは歴史的事情でそうなった面が大きいと思います。とはいえ、
明確化したことは画期的だったと思います。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======




More information about the CHISE-ja mailing list