異体字など
守岡 知彦 / MORIOKA Tomohiko
tomo @ kanji.zinbun.kyoto-u.ac.jp
2002年 8月 23日 (金) 19:10:08 JST
>>>>> In [chise-ja : No.00012]
>>>>> "師さん" = Shigeki Moro <s-moro @ hanazono.ac.jp> wrote:
師さん> > o chise databaseでは,どのような範囲で,異体字関係が蓄えられ
師さん> > ているのでしょうか.例えばこの高麗大蔵経異体字典のデータは入っ
師さん> > ているのでしょうか.
師さん> CHISEで蓄えられているのは、主にUnicodeなどの一部として公開され
師さん> ているデータをもとにした異体字テーブルぐらいだと思います(が、
師さん> あってますでしょうか?)。
XEmacs UTF-2000 附属の database に関していえば、実をいえば、Unihan の
異体字関連の情報はまだ merge していません。実験的に大漢和とかその他出
典をメモ的に書いたものが幾つか入っています。
(let ((i 0))
(map-char-attribute
(lambda (c v)
(setq i (1+ i))
nil)
'->same-ideograph)
i)
みたいなので調べたところ、漢字に関しては
->same-ideograph 77
<-original-ideograph 24
<-ancient-ideograph 19
<-vulgar-ideograph 82
<-wrong-ideograph 7
<-simplified-ideograph 39
->ideographic-variants 20
->synonyms 9
が入ってます。これらは妙に細かく入ってるのが多くて、?\u4E8F だと
(<-original-ideograph
(:sources (seiji-tsuu morohashi-daikanwa shinjigen-1)
:char ((shinjigen-1 . 75)
(ideograph-daikanwa . 00252)
)
))
見たいな感じに入っています。<-FOO や ->FOO の値はリストで、複数の map
が書けますので、出典毎に書くことができます。また、
(:prop1 val1 :prop2 val2 ...)
という文字参照形式ではなく、メタデータ無しに文字を指すことも可能なので、
巷によくある出典・用例無しの異体字データもとりあえず取り込んではどうか
とも思ってます。また、<-vulgar-ideograph というような分類毎に別属性と
するのではなく、
(->variants
(:categories (<-original)
:sources ((seiji-tsuu :category <-original)
(morohashi-daikanwa :category <-original)
(shinjigen-1 :category <-original))
:char ((shinjigen-1 . 75)
(ideograph-daikanwa . 00252)
)))
のように ->variants もしくは ->ideographic-variants 属性に統一しようか
という気もしてます。こうすれば、データの lookup の手間が1段増えますが、
メタデータ無しの情報を
(->variants
((ucs . #x4E8E)
))
のように取り込むことができます。出典によって本字とか古字とか俗字とか種
別が違う場合も表現できますし。
;; ちゃんとした形式は Wittern さんが TopicMaps 版を作ってから再検討し
;; たいんですが。
師さん> CHISEにこういう文字の関係についてのデータをどんどん入れたいと思っ
師さん> ていますが(時間との戦い (^_^;;)、CHISEの場合、単なるテーブルじゃ
師さん> なくて、コンテクスト情報も入れなければなりません。『高麗大蔵経』
師さん> というコンテクストの場合、この文字とこの文字は異体字関係だね、と
師さん> いう具合に。
高麗大蔵経異体字データベースみたいに出典が判ってるやつは、:char と
:sources だけ指定して放りこめば良い訳です。
師さん> > o 世の中には,異体字に関する情報は現在,どのように電子化され
師さん> > ていますか.
師さん> 手に入りやすいところでは簡体字⇔繁体字、新字⇔旧字の変換テーブ
師さん> ル、Unicodeの正規化用テーブルなどがありますが、製品版の今昔文
師さん> 字鏡や超漢字などにはもうちょっと強力な関連字データベースがある
師さん> ようです。いずれのデータもコンテクスト情報が欠落しているので
師さん> (さらに文字鏡以下はライセンスの問題もあるでしょうから)、その
師さん> ままCHISEに使いまわせるわけではないのが残念です。
ちなみに、文字鏡は種別が付いてますが出典はないです。超漢字も screen
shot を見る限りでは同様みたいです。
理想的には出典があって、さらに、出典のテキストデータベースとリンクされ
ていて、該当個所へ飛べるのが良いと思いますが、ちょっとこれは CHISE
Project の目標を越えてる気がします。(^_^; (CHISE System が完成したら、
それを使ってテキスト・データベースと各種データベースを統合したシステム
を作ると Wittern さんが言ってた気が)
Wittern さんが漢語大字典(だったでしょうか? > Wittern さん)の異体字
データベースをお持ちだったと思います。ライセンス的に取り込めるかどうか
は知らないのですが、取り込めるんだったら取り込んじゃいましょうか。例に
よってメタデータ無しだけど5万字弱あるので。
では。
--
===『幾千億の分子に分かれても ========================================
決して忘れない。
この宇宙が終るまで』 守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======
More information about the CHISE-ja
mailing list