異体字処理の様々な方式とCHISE (was Re: [chise-meeting:79] Re: 10/25,26 etc.)

2002年 11月 6日 (水) 16:57:06 JST

もろです。

寒くなって来ましたねー。皆様、ご自愛を。

On 30 Oct 2002 17:42:52 +0900
tomo ＠ kanji.zinbun.kyoto-u.ac.jp (守岡 知彦 / MORIOKA Tomohiko) san wrote:

> 構造化４バイトは大漢和番号を使って整理する方法だったかな？確か昔情報処
> 理学会論文誌に論文が載ってたような気がします。

これですね、多分。
http://www.ipsj.or.jp/members/Journal/Jpn/3506/article017.html

> ・どの異体字を表しているかは正確に指すことはできない
> ・異体字を重複して登録しがち
> ・結局、親字しか判らない
> ・N 対 N の異体字関係は表現できない
> ・何を親字に立てるか？
> ・符号空間が sparse になる
> 
> といった問題があり、今日の計算機環境の事情を考えればあんまりメリットは
> ないかなと思ってます。

そうですよね。今度、これらのことについて漢情研の大会で発表するつ
もりです。

# そうだ、ここにもアナウンスを流さないと。

> CHISE の枠組はもっと多面的に文字や文字間の関係に関する情報を載せるよう
> なものとしたいと思います。異体字関連情報に関してもどの文字とどの文字が
> 異体字関係にあるというだけでなく、その種類や出典などの付加情報も載せて
> いきたいと思います。そして、将来的にはその文字を使っているテキストやそ
> の注釈を格納するデータベースともつなげていければ良いなあと思っています。

よいですね。というか、今まで学術利用においても出典情報がなしでやっ
てたんですよね。これまで、学術利用というとすぐに青天井、という議
論になっていたので、それはちょっと打破したいと。

出典となるテキストデータベースをCHISEの何か（例えばXEmacs UTF-2000）
で読んでいたり、処理していたりするときに、そのテキストデータベー
スが何であるかによって、異体字の振る舞いが変化する、という具合で
しょうかね。もちろん、テキストデータベースが何であるかに関わらず、
例えばUnicode正規化にしたがって処理しろ！というのもありなわけで。

そのうち、SATの外字（一部、下記URL）もCBETAとのだぶりなんかをき
ちんと整理して、CHISEに載せてしまおう、と思っています。
http://www.l.u-tokyo.ac.jp/~sat/japan/tech/kari_number.html

Shigeki Moro

Hanazono University
s-moro ＠ hanazono.ac.jp
moro ＠ ya.sakura.ne.jp
http://www.ya.sakura.ne.jp/~moro/