実体参照の解除方法

Kouichirou Eto 2003 @ eto.com
2003年 2月 18日 (火) 17:17:32 JST


守岡さん、江渡です。質問です。

Ext.Bなどの実体参照はどう解除すればいいのでしょうか。
現在は、&U-00029C0F;みたいな指定だった場合、
素直にそれを単に数値に変換してchar idとしているが、
それではまずいのでしょうか?
この変換方法だと、
IDS-UCS-Ext-B-5.txtにある文字などは軒並 has no attributeに
なってしまうようなので、どうすればいいのかと思っています。
単にまだ属性がはいってないというだけでしょうか。

始めno attributeかどうかをcheckせずに読み込みをしたら、
合計7万字程度のIDSが読み込みできました。

			文字数	重複	食違い	成功
IDS-UCS-Basic.txt	20902	0	0	20393
IDS-UCS-Ext-A.txt	6584	0	0	6500
IDS-UCS-Ext-B-1.txt	8192	0	0	7762
IDS-UCS-Ext-B-2.txt	8192	0	0	7899
IDS-UCS-Ext-B-3.txt	8192	0	0	7998
IDS-UCS-Ext-B-4.txt	8192	0	0	7964
IDS-UCS-Ext-B-5.txt	8192	0	0	8081
IDS-UCS-Ext-B-6.txt	1751	0	0	1730
IDS-JIS-X0208-1990.txt	6398	3460	794	517
IDS-Daikanwa-01.txt	1456	706	212	274
IDS-Daikanwa-02.txt	3244	1930	45	322
IDS-Daikanwa-03.txt	2758	1472	67	143
IDS-Daikanwa-04.txt	4153	1748	801	57
IDS-Daikanwa-05.txt	2916	709	793	48
IDS-Daikanwa-06.txt	3184	995	376	137
IDS-Daikanwa-07.txt	5137	1484	801	258
IDS-Daikanwa-08.txt	5474	1529	608	75
IDS-Daikanwa-09.txt	4761	790	737	127
IDS-Daikanwa-10.txt	5941	1609	486	14
IDS-Daikanwa-11.txt	3581	1066	125	6
IDS-Daikanwa-12.txt	6740	1592	357	18
IDS-Daikanwa-dx.txt	1062	234	88	10
IDS-Daikanwa-ho.txt	35	0	27	1
IDS-CBETA.txt		13363	745	441	341
合計			140400	20069	6758	70675

しかしno attributeを省くようにすると、主にExt.Bなどが
軒並落ちてしまい、合計4万6千程度とかなり減ってしまいました。

			文字数	重複	食違い	成功
IDS-UCS-Basic.txt	20902	0	0	20367
IDS-UCS-Ext-A.txt	6584	0	0	5801
IDS-UCS-Ext-B-1.txt	8192	0	0	4468
IDS-UCS-Ext-B-2.txt	8192	0	0	4338
IDS-UCS-Ext-B-3.txt	8192	0	0	4440
IDS-UCS-Ext-B-4.txt	8192	0	0	3863
IDS-UCS-Ext-B-5.txt	8192	0	0	723
IDS-UCS-Ext-B-6.txt	1751	0	0	193
IDS-JIS-X0208-1990.txt	6398	3460	794	517
IDS-Daikanwa-01.txt	1456	706	212	274
IDS-Daikanwa-02.txt	3244	1930	45	322
IDS-Daikanwa-03.txt	2758	1472	67	143
IDS-Daikanwa-04.txt	4153	1748	801	57
IDS-Daikanwa-05.txt	2916	709	793	48
IDS-Daikanwa-06.txt	3184	995	376	137
IDS-Daikanwa-07.txt	5137	1484	801	258
IDS-Daikanwa-08.txt	5474	1529	608	75
IDS-Daikanwa-09.txt	4761	790	737	127
IDS-Daikanwa-10.txt	5941	1609	486	14
IDS-Daikanwa-11.txt	3581	1066	125	6
IDS-Daikanwa-12.txt	6740	1592	357	18
IDS-Daikanwa-dx.txt	1062	234	88	10
IDS-Daikanwa-ho.txt	35	0	0	0
IDS-CBETA.txt		13363	745	441	341
合計			140400	20069	6731	46540

Ext.Bの実体参照を解除する方法が間違っているのではと思ったのですが、
どのようにすればいいでしょうか?

江渡 浩一郎 2003 @ eto.com






More information about the CHISE-ja mailing list