漢字の部品化

守岡知彦 / MORIOKA Tomohiko tomo @ mousai.as.wakwak.ne.jp
2002年 11月 25日 (月) 01:49:53 JST


>>>>> In [chise-ja : No.00050] 
>>>>>	"江渡さん" = 江渡 浩一郎 <2002 @ eto.com> wrote:

江渡さん> でも、藤原さんの論文のときは、部首情報しか使っていなかったん
江渡さん> ですよね。私が勘違いしてました。

確か部品を使ってたと思います。ただあの頃はまだ IDS 形式の部品データベー
スが整備できていなかったので、台湾中央研究院の CDP のデータベース(今
は CDS というそうです)を使ってたと思います。


江渡さん> でもU-00ECxxxxみたいなコードがでてくるのですが、これはなんだ
江渡さん> ろう?  nw.txtを読んでいってutf8でかきだすというプログラムを
江渡さん> 作ってみたところ、
江渡さん> 以下のような感じになりました。

江渡さん> [529B[力]][32][4EC2[仂] 529F[功] 52A0[加] 52A9[助] 52AA[努] 52AB[劫]
江渡さん> 52AC[劬] 52AD[劭] 52B1[励] 52BC[劼] 52C1[勁] 52C3[勃] 52C5[勅] 52D2[勒]
江渡さん> 52D5[動] 52D8[勘] 52DE[勞] 52DF[募] 52E2[勢] 52E3[勣] 52E6[勦] 52F3[勳]
江渡さん> 52F5[勵] 00EC25AA 00EC2604 00EC27CB 00EC2E46 00EC2FD9 00EC3102 00EC3104 00EC310A 00EC310D]

江渡さん> ということで、後半が全て00ECxxxxという値になったのですが、こ
江渡さん> れってなんなのでしょうか?

これは文字 object-id の列なので、UCS の値が欲しい場合は各文字オブジェ
クトの ucs 属性もしくは =>ucs 属性の値を取る必要があります。

なお、00ECxxxx は UCS の私用領域のひとつです。XEmacs UTF-2000 は ucs属
性を持たない文字オブジェクトの object id を割り当てる領域として 00群E0
面〜FF面、60群〜 7F群、00群16面を使用しています。

なお、目安ですが

00E0 0001 〜	大漢和番号
00E2 0000 〜	CBETA 外字
00E8 0000 〜	JEF-CHINA3
00E9 0940 〜	ISO/IEC 2022 の文字
6100 0000 〜	GT
6200 0000 〜	BIG5-CDP
6201 0000 〜	漢字庫

という傾向性があります。しかし、これは無保証です。あくまで、文字オブジェ
クトに対応する所定の文字属性を調べるのが原則です。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======




More information about the CHISE-ja mailing list