漢字の部品化

江渡 浩一郎 2002 @ eto.com
2002年 11月 19日 (火) 00:25:58 JST


江渡です。

> まだ ids package の中身は XEmacs UTF-2000 に merge されてないので、ids
> package の提供する関数 ids-read-file で取り込む必要があります。でもっ
> て私はこんなのを使ってます:

わーい。これを使ってみます。

でも、藤原さんの論文のときは、部首情報しか使っていなかったんですよね。
私が勘違いしてました。

それから、nw.txtでUCSになっていないというのは、私の間違いでした。
バイトオーダを間違えていて変換できていなかった。

でもU-00ECxxxxみたいなコードがでてくるのですが、これはなんだろう?
nw.txtを読んでいってutf8でかきだすというプログラムを作ってみたところ、
以下のような感じになりました。

[529B[力]][32][4EC2[仂] 529F[功] 52A0[加] 52A9[助] 52AA[努] 52AB[劫]
52AC[劬] 52AD[劭] 52B1[励] 52BC[劼] 52C1[勁] 52C3[勃] 52C5[勅] 52D2[勒]
52D5[動] 52D8[勘] 52DE[勞] 52DF[募] 52E2[勢] 52E3[勣] 52E6[勦] 52F3[勳]
52F5[勵] 00EC25AA 00EC2604 00EC27CB 00EC2E46 00EC2FD9 00EC3102 00EC3104 00EC310A 00EC310D]

ということで、後半が全て00ECxxxxという値になったのですが、これってなんなのでしょうか?

江渡 浩一郎 2002 @ eto.com






More information about the CHISE-ja mailing list