IDS、実体参照

守岡知彦 / MORIOKA Tomohiko tomo @ kanji.zinbun.kyoto-u.ac.jp
2002年 12月 26日 (木) 20:52:51 JST


>>>>> In [chise-ja : No.00099] 
>>>>>	"江渡さん" = Kouichirou Eto <2002 @ eto.com> wrote:

江渡さん> シンニョウの中に一がある文字があって、この文字のIDSで、シン
江渡さん> ニョウが欠けてるのですが、これってIDSのデータの間違いという
江渡さん> ことでしょうか?

その通りです。そういう訳で直しときました。

江渡さん> IDSのオペレータの後には、少なくとも二文字こなくてはいけない
江渡さん> はずですが、そうじゃないものもあります。これはデータの間違い
江渡さん> ということでしょうか?

その通りです。また、後で辞書で調べようと思ったり、部品が見つからないと
いった理由で ? を付けたりしてわざと不完全にしている場合もあります。


江渡さん> IDS-UCS-Compat.txt
江渡さん> IDS-UCS-Compat-Supplement.txt
江渡さん> このファイルはなんでしょうか? これから入力しようとしていると
江渡さん> いう感じ?  無視しておくのがいいでしょうか。

まだ全然手つかずだと思います。ids package の installer では無視してま
す。

なお、私の個人的意見ですが、IDS-UCS-Compat.txt の内、KS X 1001 出典の
同形異音のものに対しては IDS は書かなくて良い(あるいは、書かない方が
良い)のではないかと思います。また、IDS-UCS-Compat-Supplement.txt は異
体字が多いようなのでいずれ埋めて行くのが良いと思います。


江渡さん> IDSについては、このIDS中にある.txtファイル群が元データなので
江渡さん> すよね。

はい。


江渡さん> 部品について、例えばシンニョウという部品だけとっても、二つの
江渡さん> char-idがあったりします。その違いはよくわからない…。

Unicode にはシンニョウに関して

U+2ECC	CJK RADICAL SIMPLIFIED WALK	1点3画(新字的)
U+2ECD	CJK RADICAL WALK ONE		2点4画(旧字的)
U+2ECE	CJK RADICAL WALK TWO		1点4画(筆写的;CNS 風)
U+2FA1	KANGXI RADICAL WALK		6画 (= U+8FB5)
U+8FB5	(統合漢字)			6画(元の字)
U+8FB6	(統合漢字)
	C-G 欄: U+2ECC と同じ
	C-T 欄: U+2ECE と同じ
	J 欄:	 U+2ECD と同じ
	K 欄:	 U+2ECD と同じ
	V 欄:	 なし

の4つがあります。そういう訳で、一応、例示字形のデザインに応じて使い分
けています。1点3画の時に U+2ECC と U+8FB6 のどっちを使うかが問題なん
ですが、その場合は U+2ECC を使って、U+8FB6 は U+2ECC と U+2ECD と
U+2ECE を統合した抽象部品ということにしてはどうかなと思っています。ま
た、KANGXI RADICALS は IDS では使わないのが良いかなと思っています。

江渡さん> これを同じシンニョウという部品であると取り扱いたいのですが、
江渡さん> どのようにすればunifyできるのでしょうか?

<chise-ja:00064> からはじまるスレッドに関連しますが、現状ではそのため
の属性が不足しています。CJK RADICAL→統合漢字間、および、KANGXI
RADICAL→統合漢字間には <-radical を付けていますが、現状では同字体のも
のにのみ付いており、Unicode で区別されているような異体字形間のリンクは
付いていません。これは問題だと思うので付けたいと思っています。それでど
う付けようかというのが前述のスレッドの問題意識のひとつです。

江渡さん> 同様に、つながっている草冠、切れてる草冠などなどもunifyした
江渡さん> いのですが、どのような方法をとるのが一番いいでしょうか?

いずれにせよ、なんらかの属性を付けるのが良いと思います。形式を議論して
決めましょう。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======




More information about the CHISE-ja mailing list