抽象と具象(Re:文字オブジェクトにおける関係の視覚化)

守岡知彦 / MORIOKA Tomohiko tomo @ kanji.zinbun.kyoto-u.ac.jp
2005年 8月 31日 (水) 21:28:24 JST


>>>>> In [chise-ja : No.00469] 
>>>>>	"上地さん" = Koichi Kamichi <kamichi @ fonts.jp> wrote:

tomo>> <chise-ja:00430,00431,00433> での議論に基づき、
tomo>> 
tomo>> 命名規則として、
tomo>> 
tomo>>       =CCS	その CCS の例示字形を指すもの(具象 CCS)
tomo>>	     ==>CCS	その CCS の包摂規準で包摂するもの(抽象 CCS)
tomo>> 
tomo>> を採用し、文字素性属性で抽象・具象関係を明記する方向で行きたい
tomo>> と思います。

上地さん> 思い出しました。

tomo>> ただ、歴史的事情から、=ucs, =jis-X0208 @ 1997 は抽象のままで行き
tomo>> たいです(==>ucs, ==>jis-X0208 @ 1997 を設けた上で、従来のを 
tomo>> alias にしても良いですけど)。また、Big5 など例示字形が謎なもの
tomo>> とか、そもそも例示字形がないもの、本質的に抽象 CCS なものはどう
tomo>> しましょう?そういうのは =CCSでも良いと思いますし、敢えて 
tomo>> ==>CCS とするのもありだと思います。

上地さん> これは、「UCSやUnicodeの例示字形をさす方法は
上地さん> =ucs@{unicode|iso}に変更したから」「JIS97版は90版との字形変
上地さん> 更がなく97の例示字形を指すことは90の例示字形を指すのに同義だ
上地さん> から」、「=」を用いて具象CCSを指すことはありえない(=ucs,
上地さん> =jis-X0208 @ 1997で、具象CCSを指したい、と思うことはありえない)、
上地さん> という前提で例外が許される、ということですよね。

ちょっと考えを変えました。

上記規準に従うなら、JIS X 0208:1997 の例示字形は =jis-x0208 @ 1997, 包摂
範囲は ==>jis-x0208 @ 1997 である方が綺麗な気がします。

そして、仮に、JIS X 0213:2000 の JIS X0208 部分の例示字体を
=jis-x0208 @ 2000, 包摂範囲を ==>jis-x0208 @ 2000 とし、また、同様に JIS X
0213:2004 の JIS X0208 部分の例示字体を =jis-x0208 @ 2004, 包摂範囲を 
==>jis-x0208 @ 2004 とした時、

=jis-x0208 @ 2000 を =jis-x0208 @ 1997 の alias, ==>jis-x0208 @ 2004 を
==>jis-x0208 @ 2000 の alias とすることで、これらの等価関係を記述でき、
また、==>jis-x0208 @ 2000 の要素が ==>jis-x0208 @ 1997 の要素に包含されよ
うな文字定義を書くことで、両者の包摂規準の包含関係を記述できます。

;; 実際には、=jis-x0213 @ 2000 と =jis-x0213 @ 2004 と ==>jis-x0213 とする
;; のが良いと思いますが。その際、=jis-x0213 @ 2000 は =jis-x0208 @ 1997 を
;; 継承するが、 =jis-x0213 @ 2004 は継承しない(=jis-x0208 は継承するの
;; かな?)という感じになると思います。

UCS に関しては、(ハングルの大移動を無視すれば)ここまでややこしい事態
にはなりませんが、一般に単一の例示字形を持たないので、=ucs は各例示字
形の共通部分とし、包摂範囲は ==>ucs とするのが綺麗だと思います。

ただ、仮に、こうした立場を採るとしても、当面、=ucs, =jis-x0208 @ 1997 は
それぞれ ==>ucs, ==>jis-x0208 @ 1997 と等価ということにしたいと思います。


上地さん> そもそも例示字形のないCCSとは、たとえばどんなものでしょうか?
上地さん> 実際の利用のイメージがわきません…。

音価によって符号対象を定めるような CCS だとか、同様に意味とか機能とか
で符号対象を定めるような CCS, 即ち、基本的に形に依らない文字同定をする
CCS なら例示字形は示す必要がなかったり示し得なかったりするかも知れませ
ん。また、なんらかの Unification level を示すための CCS なんてのも例示
字形を示しづらいかも。

ただ、例示字形という概念が有効なのは、包摂規準があり、符号位置が表現す
る意味はそれが包摂する文字の集合である、という観念が成立している場合だ
と思います。これが厳密に成立しているのは JIS X 0208:1997 と JIS X 0213
だけで、UCS / Unicode も概ね満たしているものの包摂規準は怪しく、それ以
外の大抵の符号はどこまで包摂し得るか明らかでない、ないしは、包摂という
観念がないかも知れないようなものだといえます。


上地さん> そういえば「呉」の=big5:A764は、なぜここにあるのでしょうか。
上地さん> big5のある1つの実装フォントを代理で例示字形としている、とい
上地さん> う意味でしょうか。そういう意味では、big5は具象CCSになります
上地さん> ね。

今のような文字定義の継承機構を導入する前には、CDP や漢字庫で使われてる
らしい?とあるフォント (mingliu.ttc) を Big5 の例示字形と仮に看做してま
したが、今は、一般的な本文用書体の採り得る包摂範囲とするのが良いかなと
思っています。でも、その場合、=big5 ではなく ==>big5 が良いですかね。
また、もうちょっとちゃんと調査した方が良いですね。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======




More information about the CHISE-ja mailing list