異体字など

2002年 8月 23日 (金) 19:10:08 JST

>>>>> In [chise-ja : No.00012] 
>>>>>	"師さん" = Shigeki Moro <s-moro ＠ hanazono.ac.jp> wrote:

師さん> > o chise databaseでは，どのような範囲で，異体字関係が蓄えられ
師さん> > ているのでしょうか．例えばこの高麗大蔵経異体字典のデータは入っ
師さん> > ているのでしょうか．

師さん> CHISEで蓄えられているのは、主にUnicodeなどの一部として公開され
師さん> ているデータをもとにした異体字テーブルぐらいだと思います（が、
師さん> あってますでしょうか？）。

XEmacs UTF-2000 附属の database に関していえば、実をいえば、Unihan の
異体字関連の情報はまだ merge していません。実験的に大漢和とかその他出
典をメモ的に書いたものが幾つか入っています。

(let ((i 0))
  (map-char-attribute
   (lambda (c v)
     (setq i (1+ i))
     nil)
   '->same-ideograph)
  i)

みたいなので調べたところ、漢字に関しては

->same-ideograph	77
<-original-ideograph	24
<-ancient-ideograph	19
<-vulgar-ideograph	82
<-wrong-ideograph	 7
<-simplified-ideograph	39
->ideographic-variants	20
->synonyms		 9

が入ってます。これらは妙に細かく入ってるのが多くて、?\u4E8F だと

    (<-original-ideograph
     (:sources	(seiji-tsuu morohashi-daikanwa shinjigen-1)
      :char	((shinjigen-1	     . 75)
		 (ideograph-daikanwa . 00252)
		 )
      ))

見たいな感じに入っています。<-FOO や ->FOO の値はリストで、複数の map
が書けますので、出典毎に書くことができます。また、

	(:prop1 val1 :prop2 val2 ...)

という文字参照形式ではなく、メタデータ無しに文字を指すことも可能なので、
巷によくある出典・用例無しの異体字データもとりあえず取り込んではどうか
とも思ってます。また、<-vulgar-ideograph というような分類毎に別属性と
するのではなく、

	(->variants
	 (:categories (<-original)
          :sources ((seiji-tsuu :category <-original)
		    (morohashi-daikanwa  :category <-original)
		    (shinjigen-1 :category <-original))
          :char	((shinjigen-1	     . 75)
		 (ideograph-daikanwa . 00252)
		 )))

のように ->variants もしくは ->ideographic-variants 属性に統一しようか
という気もしてます。こうすれば、データの lookup の手間が１段増えますが、
メタデータ無しの情報を

	(->variants
          ((ucs			. #x4E8E)
	   ))

のように取り込むことができます。出典によって本字とか古字とか俗字とか種
別が違う場合も表現できますし。

;; ちゃんとした形式は Wittern さんが TopicMaps 版を作ってから再検討し
;; たいんですが。


師さん> CHISEにこういう文字の関係についてのデータをどんどん入れたいと思っ
師さん> ていますが（時間との戦い (^_^;;）、CHISEの場合、単なるテーブルじゃ
師さん> なくて、コンテクスト情報も入れなければなりません。『高麗大蔵経』
師さん> というコンテクストの場合、この文字とこの文字は異体字関係だね、と
師さん> いう具合に。

高麗大蔵経異体字データベースみたいに出典が判ってるやつは、:char と
:sources だけ指定して放りこめば良い訳です。


師さん> > o 世の中には，異体字に関する情報は現在，どのように電子化され
師さん> > ていますか．

師さん> 手に入りやすいところでは簡体字⇔繁体字、新字⇔旧字の変換テーブ
師さん> ル、Unicodeの正規化用テーブルなどがありますが、製品版の今昔文
師さん> 字鏡や超漢字などにはもうちょっと強力な関連字データベースがある
師さん> ようです。いずれのデータもコンテクスト情報が欠落しているので
師さん> （さらに文字鏡以下はライセンスの問題もあるでしょうから）、その
師さん> ままCHISEに使いまわせるわけではないのが残念です。

ちなみに、文字鏡は種別が付いてますが出典はないです。超漢字も screen
shot を見る限りでは同様みたいです。

理想的には出典があって、さらに、出典のテキストデータベースとリンクされ
ていて、該当個所へ飛べるのが良いと思いますが、ちょっとこれは CHISE
Project の目標を越えてる気がします。(^_^; （CHISE System が完成したら、
それを使ってテキスト・データベースと各種データベースを統合したシステム
を作ると Wittern さんが言ってた気が）

Wittern さんが漢語大字典（だったでしょうか？ > Wittern さん）の異体字
データベースをお持ちだったと思います。ライセンス的に取り込めるかどうか
は知らないのですが、取り込めるんだったら取り込んじゃいましょうか。例に
よってメタデータ無しだけど５万字弱あるので。

では。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo ＠ kanji.zinbun.kyoto-u.ac.jp> ======