about CHISE specs
守岡知彦 / MORIOKA Tomohiko
tomo @ m17n.org
2004年 12月 18日 (土) 00:27:00 JST
>>>>> In [chise-ja : No.00401]
>>>>> "上地さん" = Koichi Kamichi <kamichi @ fonts.jp> wrote:
上地さん> KAGEのIDSデータ部分をCHISEに置き換えたのですが、例えば
上地さん> CHISE-DBで「肛」のIDSに使っている肉月のようなU+2F**台の部首
上地さん> コードや、GT,CDP等を割り当てている部品のうち、UCSのCJK統合漢
上地さん> 字集合内の漢字と字形が同じものは、CHISE-DBからUCSコードを引っ
上地さん> 張って、もともとKAGEで用意している部品データ(例でいえば「月
上地さん> (U+6708)」)を使うようにしようと考えています。(同じ、とい
上地さん> う意味については、現時点では、「私が同じと思うもの=漢字部品
上地さん> を作りわける必要がないと判断するもの」です。)
上地さん> そこで、質問なのですが、specsのchar-atr.txtに出てくる写像
上地さん> (=>ucsや=>ucs-gb)というのは、字形が一致しているという前提に
上地さん> 立っていいのでしょうか?
上地さん> (そもそもUCS字形なんてものはない、ということではなくて、こ
上地さん> こでは例示字形のことを指しています)。
=>ucs @ gb や =>ucs @ jis 等は(規格やなんらかの authority や実装等がある
としての)mapping table での写像に則るもので、字形の一致は前提ではあり
ません。
と書いて気づきましたが、それぞれの『元規格』での例示字形に基づく類似性
という意味では、その通りです。
上地さん> また、このtxtには=>ucs @ gbなどがでていませんが、=>ucs-gbと
上地さん> =>ucs @ gbの違いはなんでしょうか?
>>>>> In [chise-ja : No.00402]
>>>>> "上地さん" = Koichi Kamichi <kamichi @ fonts.jp> wrote:
上地さん> はずかしながら、chise-ja:00199あたりに発見しました。ちょっと
上地さん> 頭痛いのですが読みました。
すみません。(^_^;;
とりあえず、specs/char-atr.ja.txt を sync up しました。
;; char-atr じゃなくて、features にすべきか。
上地さん> そこで、やはりわからないのですが、例えば =>ucs @ jis の中に次
上地さん> のレコードがあります。
上地さん> ?\e5\98\86 にたいして 64055
上地さん> これは、U+5606(嘆)にたいしてU+FA37への写像と解釈しているので
上地さん> すが、UCSのJ欄のU+5606はU+FA37と違う字形なので、この意味がわ
上地さん> かりません=>ucs @ cnsや=>ucs @ ksなら理解できるのですが。
U+5606 の Unicode 例示字形と一番近い JIS 例示字形の JIS mapping は
U+FA37 であるということを意味していたんだと思います。
ところで、現在の CVS 上の最新版では、
U+5606
|
+----+------------+
| |
U-0002F84C |
| |
+-----+-----+ +---+---+
| | | |
JU+5606 IU-0002F84C U+FA37 CU+5606
という継承関係を用いた定義になっており、従来の ?\u5606 は抽象文字とし
ての U+5606 と U+FA37 = UU+5606 = JU+FA37 の2つに分離されています。
;; もしかすると、まだ commit してなかったかも知れませんが。(^_^;;;
--
===『幾千億の分子に分かれても ========================================
決して忘れない。
この宇宙が終るまで』 守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======
More information about the CHISE-ja
mailing list