UCS variants (Re: 実体参照の解除方法)

守岡知彦 / MORIOKA Tomohiko tomo @ kanji.zinbun.kyoto-u.ac.jp
2003年 2月 19日 (水) 13:57:44 JST


>>>>> In [chise-ja : No.00180] 
>>>>>	"江渡さん" = Kouichirou Eto <2003 @ eto.com> wrote:

江渡さん> この場合のccsはどうなるのでしょうか。ucsの場合は、ucs
江渡さん> ucs-big5 ucs-bmp ucs-cns ucs-gb ucs-jis ucs-ks ucs-sip
江渡さん> ucs-smpこのようなCCSからchar idへ変換するデータベースが用意
江渡さん> されてますが、これを順に摘要して対応するのが無いかどうか調べ
江渡さん> るということでしょうか。

違います。ucs を除けばこれらは非互換な写像です。

以下に各 ccs の説明を付けます:

ucs	: Unicode 本例示字形に基づく写像(Ext-B は ISO/IEC
	  10646-2:2001 の例示字形に基づく)

ucs-gb	: GB に基づく写像

ucs-jis	: JIS に基づく写像(各年版の共通部分)

=ucs-jis-1990 : JIS X 0208:1990 + JIS X 0212:1990 を優先した JIS に基
		づく写像

=ucs-jis-2000 : JIS X 0213:2000 を優先した JIS に基づく写像

ucs-ks	: KS に基づく写像

ucs-cns	: CNS 11643 に基づく写像

ucs-big5 : Big5 に基づく写像

;; 以上、それぞれ対応する => あり
;; (注:「=foo」は「=>foo かつ <=foo」を意味する)

ucs-bmp	: ucs の 0 群 0 面

ucs-smp	: ucs の 0 群 1 面を 0 から番号付けしたもの
	  (ucs - #x10000 但し #x10000 <= ucs <= #x1FFFF)

ucs-sip	: ucs の 0 群 2 面を 0 から番号付けしたもの
	  (ucs - #x20000 但し #x20000 <= ucs <= #x2FFFF)

となっており、

		    ucs
		     +----------------------------+          
   +---------+-------+------+-------+             |変換付き
   |         |       |      |       |             |継承
ucs-gb    ucs-jis ucs-ks ucs-cns ucs-big5         |
             |                            +-------+-------+
     +-------+------+                     |       |       |
     |              |                  ucs-bmp ucs-smp ucs-sip
=ucs-jis-1990 =ucs-jis-2000

という継承関係があります。identical な継承をしているものに関しては、子
に値がなければ親の値を用います。offset 付き継承の場合、子に値がないと
き、親の定義域に値があれば親の値に変換関数をほどこしたものが子の値とな
ります。

;; 将来的には、全て =foo スタイルに変わる予定です。また、=ucs-jis-2003
;; が登場する予定です。


江渡さん> それでも無かった場合は、builtin charになると。そういうことで
江渡さん> すよね。

ucs は(実装上)system-char-id を継承していると考えれば良いと思います。


ところで、ucs, ucs-gb, ucs-jis, =ucs-jis-*, ucs-ks, ucs-cns, ucs-big5
と ucs-bmp, ucs-smp, ucs-sip は意味合いが異なるので、命名法を変えた方
が良い気がします。特に、ucs-smp, ucs-sip は ucs に対して offset がある
ので、UCS encoding じゃないといえます。

そこで、ucs-bmp, ucs-smp, ucs-sip は =bmp-ucs, =smp-ucs, =sip-ucs とす
るのはいかがでしょうか?こうすれば、=sip-ucs-jis-2000 といったものも作
れますし。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======




More information about the CHISE-ja mailing list