[chise-meeting:79] Re: 10/25,26 etc.

守岡 知彦 / MORIOKA Tomohiko tomo @ kanji.zinbun.kyoto-u.ac.jp
2002年 10月 30日 (水) 17:42:52 JST


守岡です。帰ってきてから風邪ひいて、月曜日はダウンしてました。

ミーティングに関係のない話なので、chise-ja に投げます。

>>>>> In [chise-meeting : No.79] 
>>>>>	"上地さん" = "KAMICHI, Koichi" <kamichi @ sfc.keio.ac.jp> wrote:

上地さん> 結局、どう委員会を決着させるか、という段階になり、
上地さん> (途中の過程はわかりませんが)異形字処理に関して
上地さん> 一家言ある委員の意見を集めたら4つになった、というのが
上地さん> 結構実情です。
上地さん> とくに、枝番の概念に関しては、NECの伊藤氏が昔から
上地さん> いっている意見を基にしています。構造化4バイトは
上地さん> 国研の斉藤氏の論を基にしています。
上地さん> いずれも参照できる論文、記事があります。(ちょっといま
上地さん> 出せませんが、調べておきます)

この詳細を知らないので同じ概念かどうかは判らないのですが、枝番方式とい
うと古くは台湾?の CCCII というのがあり結構有名です。これは親番が 96×
96×6 個で枝番が 16 個という方式だったと思います。主に図書館方面で使わ
れたそうで、多数の変種が存在するそうです。

構造化4バイトは大漢和番号を使って整理する方法だったかな?確か昔情報処
理学会論文誌に論文が載ってたような気がします。

いずれにせよ、この手の方法は、親字と異体字の 1 対 N 関係を bit pattern
でもって表現しようとするもので、わりと多くの人が考える話ではあるのです
が、わりと容易に想像がつくように

・少ない記憶資源で親字を調べることができる

という利点はあるものの

・どの異体字を表しているかは正確に指すことはできない
・異体字を重複して登録しがち
・結局、親字しか判らない
・N 対 N の異体字関係は表現できない
・何を親字に立てるか?
・符号空間が sparse になる

といった問題があり、今日の計算機環境の事情を考えればあんまりメリットは
ないかなと思ってます。

上地さん> CHISEとの比較に関して、もろさんが書かれたとおりで、
上地さん> 要素間の特定の関係(親字と異体字の主に1対多関係)の
上地さん> 部分(だけ)が枝番方式に相当します。
上地さん> CHISEはもっと広く概念を保有しているのだと私は解釈しています。

CHISE の枠組はもっと多面的に文字や文字間の関係に関する情報を載せるよう
なものとしたいと思います。異体字関連情報に関してもどの文字とどの文字が
異体字関係にあるというだけでなく、その種類や出典などの付加情報も載せて
いきたいと思います。そして、将来的にはその文字を使っているテキストやそ
の注釈を格納するデータベースともつなげていければ良いなあと思っています。


上地さん> 今後の方向としては、新しく始まったJISの試行標準(TR)で
上地さん> 4方式を準規格化していくようです。まだTRがどういった
上地さん> 扱い(立場)になるか、決まっていないので、このあたりも
上地さん> 結構あいまいになっています。

そうなんですか。フォント枝番方式は想像しているものだとすると、Unicode
との絡みもありなんらかの対応が必要だと思いますが、他の方法は標準化して
もあんまり仕方がない気もするんですが、とはいえ、どうなるか面白そうでは
あります。


上地さん> #あ、そういえば会議には安岡先生も結構でられてますので、
上地さん> もっと詳しい話が聞けるかもしれませんね。

なるほど。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======




More information about the CHISE-ja mailing list