異体字など

2002年 8月 23日 (金) 15:18:41 JST

師です。

# 現実逃避です (^_^;;

On Fri, 23 Aug 2002 11:29:19 +0900 (JST)
yfujiwar ＠ crl.go.jp (Yoshi Fujiwara) san wrote:

> o このような異体字典というのは，編者が生きている時代に(少なくともかろ
> うじて)異なる地域や世代で使われている，異体字を知る限り集めてきた，と
> 理解してよいのでしょうか．
> 
> o それとも編者が集めた全ての過去の文献で，同じ意味に用いられている異体
> 字を全部載せました，ということでしょうか．

異体字は、採取する時代や地域の範囲の設定のしかたでその同異の基準
が決まってくるので、普通は編者によってある程度限定されるのが普通
だと思います。『高麗大蔵経異体字典』の場合は『高麗大蔵経』という
テキストに限定されたものです。

ただ、異体字を扱っていても、異体字のコンテクスト依存性をついつい
無視しちゃう人は少なくないと思います。

> o chise databaseでは，どのような範囲で，異体字関係が蓄えられているので
> しょうか．例えばこの高麗大蔵経異体字典のデータは入っているのでしょうか．

CHISEで蓄えられているのは、主にUnicodeなどの一部として公開されて
いるデータをもとにした異体字テーブルぐらいだと思います（が、あっ
てますでしょうか？）。

CHISEにこういう文字の関係についてのデータをどんどん入れたいと思っ
ていますが（時間との戦い (^_^;;）、CHISEの場合、単なるテーブルじゃ
なくて、コンテクスト情報も入れなければなりません。『高麗大蔵経』
というコンテクストの場合、この文字とこの文字は異体字関係だね、と
いう具合に。

> o 世の中には，異体字に関する情報は現在，どのように電子化されていますか．

手に入りやすいところでは簡体字⇔繁体字、新字⇔旧字の変換テーブル、
Unicodeの正規化用テーブルなどがありますが、製品版の今昔文字鏡や
超漢字などにはもうちょっと強力な関連字データベースがあるようです。
いずれのデータもコンテクスト情報が欠落しているので（さらに文字鏡
以下はライセンスの問題もあるでしょうから）、そのままCHISEに使い
まわせるわけではないのが残念です。

Shigeki Moro

Hanazono University
s-moro ＠ hanazono.ac.jp
moro ＠ ya.sakura.ne.jp
http://www.ya.sakura.ne.jp/~moro/