IDS、実体参照
守岡知彦 / MORIOKA Tomohiko
tomo @ kanji.zinbun.kyoto-u.ac.jp
2002年 12月 26日 (木) 20:52:51 JST
>>>>> In [chise-ja : No.00099]
>>>>> "江渡さん" = Kouichirou Eto <2002 @ eto.com> wrote:
江渡さん> シンニョウの中に一がある文字があって、この文字のIDSで、シン
江渡さん> ニョウが欠けてるのですが、これってIDSのデータの間違いという
江渡さん> ことでしょうか?
その通りです。そういう訳で直しときました。
江渡さん> IDSのオペレータの後には、少なくとも二文字こなくてはいけない
江渡さん> はずですが、そうじゃないものもあります。これはデータの間違い
江渡さん> ということでしょうか?
その通りです。また、後で辞書で調べようと思ったり、部品が見つからないと
いった理由で ? を付けたりしてわざと不完全にしている場合もあります。
江渡さん> IDS-UCS-Compat.txt
江渡さん> IDS-UCS-Compat-Supplement.txt
江渡さん> このファイルはなんでしょうか? これから入力しようとしていると
江渡さん> いう感じ? 無視しておくのがいいでしょうか。
まだ全然手つかずだと思います。ids package の installer では無視してま
す。
なお、私の個人的意見ですが、IDS-UCS-Compat.txt の内、KS X 1001 出典の
同形異音のものに対しては IDS は書かなくて良い(あるいは、書かない方が
良い)のではないかと思います。また、IDS-UCS-Compat-Supplement.txt は異
体字が多いようなのでいずれ埋めて行くのが良いと思います。
江渡さん> IDSについては、このIDS中にある.txtファイル群が元データなので
江渡さん> すよね。
はい。
江渡さん> 部品について、例えばシンニョウという部品だけとっても、二つの
江渡さん> char-idがあったりします。その違いはよくわからない…。
Unicode にはシンニョウに関して
U+2ECC CJK RADICAL SIMPLIFIED WALK 1点3画(新字的)
U+2ECD CJK RADICAL WALK ONE 2点4画(旧字的)
U+2ECE CJK RADICAL WALK TWO 1点4画(筆写的;CNS 風)
U+2FA1 KANGXI RADICAL WALK 6画 (= U+8FB5)
U+8FB5 (統合漢字) 6画(元の字)
U+8FB6 (統合漢字)
C-G 欄: U+2ECC と同じ
C-T 欄: U+2ECE と同じ
J 欄: U+2ECD と同じ
K 欄: U+2ECD と同じ
V 欄: なし
の4つがあります。そういう訳で、一応、例示字形のデザインに応じて使い分
けています。1点3画の時に U+2ECC と U+8FB6 のどっちを使うかが問題なん
ですが、その場合は U+2ECC を使って、U+8FB6 は U+2ECC と U+2ECD と
U+2ECE を統合した抽象部品ということにしてはどうかなと思っています。ま
た、KANGXI RADICALS は IDS では使わないのが良いかなと思っています。
江渡さん> これを同じシンニョウという部品であると取り扱いたいのですが、
江渡さん> どのようにすればunifyできるのでしょうか?
<chise-ja:00064> からはじまるスレッドに関連しますが、現状ではそのため
の属性が不足しています。CJK RADICAL→統合漢字間、および、KANGXI
RADICAL→統合漢字間には <-radical を付けていますが、現状では同字体のも
のにのみ付いており、Unicode で区別されているような異体字形間のリンクは
付いていません。これは問題だと思うので付けたいと思っています。それでど
う付けようかというのが前述のスレッドの問題意識のひとつです。
江渡さん> 同様に、つながっている草冠、切れてる草冠などなどもunifyした
江渡さん> いのですが、どのような方法をとるのが一番いいでしょうか?
いずれにせよ、なんらかの属性を付けるのが良いと思います。形式を議論して
決めましょう。
--
===『幾千億の分子に分かれても ========================================
決して忘れない。
この宇宙が終るまで』 守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======
More information about the CHISE-ja
mailing list