『新字』←→『舊字』関係 (Re: UTF-2000 char-db)

2003年 1月 16日 (木) 04:14:59 JST

>>>>> In [chise-ja : No.00119] 
>>>>>	"江渡さん" = Kouichirou Eto <2003 ＠ eto.com> wrote:

江渡さん> 例えば、「学」の古い字体が「學」である、といった時代別の情報
江渡さん> は、現在は文字データベースには入ってないのでしょうか?

これはいわゆる『新字』（日本の常用漢字や中国の簡体字）と『旧字』（伝統
的字体）の関係のことでしょうか？

この話は深く追求するとなかなか大変なので、とりあえず深く追求せずに話を
進めると、現在の XEmacs UTF-2000 では、『新字』の文字属性として
`<-simplified-ideograph' を付け、対応する『旧字』を示すことで、こうし
たものを表現しています。しかしながらご察しのようにまだほとんどデータが
入っていません。

でもこういうのはわりと良く使うので、とりあえず近日中に常用漢字表を機械
可読なデータとして用意しようと思います。

また、中国の簡体字に関しては GB 2312 と GB 12345 の関係を利用して近似
解を得ることができます（GB 12345 は GB 2312 の『繁体字』版で、GB 2312
の符号位置の簡体字に対応する『繁体字』が GB 2312 と同じ符号位置に入っ
ています。但し、この『繁体字』はいわゆる『康煕体』と必ずしも同じとはい
えないんですが）。

ところで、こうした対応関係は戦後に日本や中国の政府が制定したもので、ま
た、日本と中国では対応関係が一致しないことがままあります。

日本では常用漢字表というオーソライズされた有限の集合があり、これを電子
化することで完全に電子化することができるといえます。

また、中国では確か部品レベルで再帰的に適用可能だったと思うので、そうだ
とするとちょっと面倒です。ただ、常用字の範囲とかでデータ化することはで
きますし、ideographic-structure を利用した探索関数を書くことはできるで
しょう。

また、いわゆる『朝日文字』のような、ある程度流通している簡略字もあった
りしますがこれはどうしましょう？

一方、本当の意味での時代別の情報ですが、本質的には、対応関係を書くとい
うよりも、出典・用例を書くという形になるのではないかと思います。また、
高麗大蔵経異体字辞典みたいになるとかえって使いにくそうなので、標準的な
文字データベースでどこまで取り込むべきなのかはなかなか考え所だと思いま
す。ある程度までは取り込むとしても、その他は各種資料のテキスト・データ
ベースと連動して、そこから用例を自動的に探して来るみたいな形が良いんだ
ろうなと思ってるんですが、実際にはいろいろ実験する必要がありそうです。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo ＠ kanji.zinbun.kyoto-u.ac.jp> ======