異体字など

Shigeki Moro s-moro @ hanazono.ac.jp
2002年 8月 23日 (金) 15:18:41 JST


師です。

# 現実逃避です (^_^;;

On Fri, 23 Aug 2002 11:29:19 +0900 (JST)
yfujiwar @ crl.go.jp (Yoshi Fujiwara) san wrote:

> o このような異体字典というのは,編者が生きている時代に(少なくともかろ
> うじて)異なる地域や世代で使われている,異体字を知る限り集めてきた,と
> 理解してよいのでしょうか.
> 
> o それとも編者が集めた全ての過去の文献で,同じ意味に用いられている異体
> 字を全部載せました,ということでしょうか.

異体字は、採取する時代や地域の範囲の設定のしかたでその同異の基準
が決まってくるので、普通は編者によってある程度限定されるのが普通
だと思います。『高麗大蔵経異体字典』の場合は『高麗大蔵経』という
テキストに限定されたものです。

ただ、異体字を扱っていても、異体字のコンテクスト依存性をついつい
無視しちゃう人は少なくないと思います。

> o chise databaseでは,どのような範囲で,異体字関係が蓄えられているので
> しょうか.例えばこの高麗大蔵経異体字典のデータは入っているのでしょうか.

CHISEで蓄えられているのは、主にUnicodeなどの一部として公開されて
いるデータをもとにした異体字テーブルぐらいだと思います(が、あっ
てますでしょうか?)。

CHISEにこういう文字の関係についてのデータをどんどん入れたいと思っ
ていますが(時間との戦い (^_^;;)、CHISEの場合、単なるテーブルじゃ
なくて、コンテクスト情報も入れなければなりません。『高麗大蔵経』
というコンテクストの場合、この文字とこの文字は異体字関係だね、と
いう具合に。

> o 世の中には,異体字に関する情報は現在,どのように電子化されていますか.

手に入りやすいところでは簡体字⇔繁体字、新字⇔旧字の変換テーブル、
Unicodeの正規化用テーブルなどがありますが、製品版の今昔文字鏡や
超漢字などにはもうちょっと強力な関連字データベースがあるようです。
いずれのデータもコンテクスト情報が欠落しているので(さらに文字鏡
以下はライセンスの問題もあるでしょうから)、そのままCHISEに使い
まわせるわけではないのが残念です。

Shigeki Moro

Hanazono University
s-moro @ hanazono.ac.jp
moro @ ya.sakura.ne.jp
http://www.ya.sakura.ne.jp/~moro/






More information about the CHISE-ja mailing list