libchise化の問題

守岡知彦 / MORIOKA Tomohiko tomo @ m17n.org
2004年 7月 27日 (火) 19:06:52 JST


>>>>> In [chise-ja : No.00382] 
>>>>>	"守岡" = tomo @ kanji.zinbun.kyoto-u.ac.jp (守岡知彦 / MORIOKA
	Tomohiko) wrote:

守岡> <chise-ja:00242> によれば

守岡> ・文字素性 → 属性値

守岡> 	$CHISE-ROOT/feature/property/<name>

守岡> 	但し、<name> は属性名

守岡> (略)

守岡> ということで、directory 構成はとりあえず決めてた模様です。

守岡> 形式は plain text でしょうか?

守岡> 昨日、現実逃避してちょっとやってみたんですが、plain text だとも
守岡> うひとつ directory 掘るか表にしないとだめなのと、既存のデータと
守岡> の対称性、code の流用性・対称性を考えると、plain text ではなく、
守岡> これも Berkeley DB にするのが妥当だという結論に達しました。

守岡> そういう訳で、文字素性 → 属性値 の場合、

守岡> 	ファイル名: 属性名(を変換したもの)
守岡> 	キー:	     文字素性名
守岡> 	値:	     属性値

守岡> という Berkeley DB のファイルが置かれることになります。

cvs commit mail を購読されている方はもうお気づきかも知れませんが、数日
前に libchise と XEmacs CHISE に対してこの拡張を commit しました。今の
所サポートしているのは coded-charset の一部の属性だけですが、XEmacs
CHISE に閉じていた情報を CHISE DB に書き出すようにしました。

ちなみに現在サポートしているのは:

文字素性:CCS 素性

素性属性:

[共通]

  true-name
  	alias に対応する元の文字素性名

  type
	文字素性の型(CCS 素性の場合、`CCS')

  description
	文字素性の説明

[CCS 素性関連]

  chars
	オクテットに占める符号領域の文字数 (94, 96, 128 or 256)

  dimension
	オクテット数 (1, 2, 3 or 4)

  final-byte
	ISO/IEC 2022 における終端バイト

  mother
	継承した CCS 素性

  mother-code-min
	親 CCS において継承対象となる符号領域の先頭となる符号位置
	(省略された場合、親 CCS の符号領域の先頭を意味する)

  mother-code-max
	親 CCS において継承対象となる符号領域の末尾となる符号位置
	(省略された場合、親 CCS の符号領域の末尾を意味する)

  ;; すなわち、mother-code-min と mother-code-max の双方が省略された場
  ;; 合、親 CCS の全符号領域を継承することを意味する。なお、原則として、
  ;; 双方を省略するか双方を定義するかのどちらかにすること。

  mother-code-offset
	親 CCS における符号位置に対するオフセット
	(省略された場合は 0 を意味する)

  mother-code-conversion
	親 CCS の符号位置に対する変換方法 (94x60, 94x94x60, big5-1,
	big5-2, unknown)
	(省略された場合は、無変換 (identical) を意味する)

  ;; 無変換の場合でも、mother-code-offset は有効

です。あ、iso-ir を追加するの忘れてた。(^_^;

libchise レベルでは任意の文字素性に対して素性属性を利用することができ
るはずですが、XEmacs CHISE では今の所対応する API が用意できていません。
(少し、code の整理が必要っぽい感じです)

また、素性属性を素性や CCS 関連 API で自動的に利用できたら良いんですが、
今の所やってません。

これをやる際、従来 API で自動的に継承処理を行っても良いかとか、継承す
るかどうかを指定できる新 API を追加するかどうか(あるいは API を変更し
て、従来名の関数の引数を増やすか)などを決める必要があるのですが、どう
しましょうか?


守岡> ちゃんと確認してないんですが、endian が違うはずの x86 Linux の 
守岡> BDB ファイルが Mac OS X で読めたような気もするので、実は 
守岡> portable なのではないかという疑問があるのですがちゃんと調べてま
守岡> せん。ご存知の方がいらっしゃいましたら是非情報をお寄せくださいま
守岡> せ。

守岡> http://www.sleepycat.com/docs/ref/am_misc/faq.html や
守岡> http://www.sleepycat.com/docs/ref/am_conf/byteorder.html にちゃ
守岡> んとアーキテクチャ(エンディアン)非依存だって書いてありました。
守岡> お恥ずかしい。

守岡> そういう訳で、どっかのタイミングで、

守岡> 	${PREFIX}/libexec/chise/${VERSION}/${CPU-VENDOR-OS}/db/

守岡> から

守岡> 	${PREFIX}/share/chise/${VERSION}/db/

守岡> に場所を変えようと思います。

これもやってしまいました。

ついでに、version を 0.2 から 0.3 に上げました。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======




More information about the CHISE-ja mailing list