structure of CHISE-db

守岡知彦 / MORIOKA Tomohiko tomo @ kanji.zinbun.kyoto-u.ac.jp
2003年 3月 31日 (月) 16:42:46 JST


>>>>> In [chise-ja : No.00206] 
>>>>>	"江渡さん" = Kouichirou Eto <2003 @ eto.com> wrote:

江渡さん> ちょっとだけスケジュールについてお聞きしたいのですが、
江渡さん> 現在属性名の変更を順に進めておられますよね。
江渡さん> これはだいたいどのくらいで、ある程度一定した状態になりますで
江渡さん> しょうか。

現状では大体1日1属性のペースです。そこから逆算できるでしょうか?

江渡さん> そのところを目途にして、Ruby/CHISEのrubyメーリングリストへの
江渡さん> フィードバックを行いたいと思っております。

御迷惑をお掛けしております。


江渡さん> 逆に、属性名が順次変更されていっても、その変更をAPIが吸収し
江渡さん> てくれたら同期をとる必要がなくなるとも考えられますかね…。

これが抜本的解決ですね。

江渡さん> 現在は、データベース名すなわちメソッド名という直接的な関係に
江渡さん> あるので、その変化がAPIの変化に直結しています。

江渡さん> emacs lispのエリアスとして変化を吸収している部分が、
江渡さん> Ruby/CHISEでも同じように作らないといけないということですね。
江渡さん> しかしRuby/CHISEはさいわいまだまったく普及していなので、古い
江渡さん> APIを残す必要が無いので、理想的なAPIを考えつけばそれを実装し
江渡さん> てしまってもOKですね。

こうした問題を解決するには、クラスとしての文字素性の性質やその特殊な形
である CCS の定義を外部 database に書き出し、それを参照する機構を作る
ことが必要だと言えます。また、名前解決の仕組を作る必要があると思います。

そこで、文字素性に関わる諸要素について考えてみたのですが、次のような結
論を得ました:

・現状、文字素性名や char-attribute-table などと呼んでいるものは、クラ
  スとしての文字素性と文字素性クラスの名前に区分できる

・現在、${CHISE-db}/char-db/system-char-id/ に入っているものは、文字を
  定義するものであると同時に、文字素性インスタンスの集合でもある(文字
  素性インスタンスの集合によって外延的に文字素性を定義したものと見倣せ
  る)

・char-db/CCS/system-char-id と char-db/system-char-id/文字素性 は似て
  非なるものである

また、

・system-char-id 以外で文字素性に関わる情報を符号化することは考えなく
  ても良いだろう

ということから、次のようなデータベース構成を提案します:

${PREFIX}/lib/chise/${VERSION}/

	char-features/<FEATURE>
		… 現在の char-db/system-char-id/<FEATURE> と同様。
		   Berkeley DB 形式。
			シンボル → 文字素性属性値
			?文字 → 文字素性値

	ccs/<CCS>
		… 現在の char-db/<CCS>/system-char-id と同様。
		   Berkeley DB 形式。
			シンボル → CCS 素性属性値
			数値 → ?文字

	ces/<REGISTRY>/<NAME>

		例: cse/mime/iso-2022-jp

		形式は未定:

	iso-ir/
		reg-num/<NUMBER>
		c0/<FINAL-BYTE>/<VERSION>
		c1/<FINAL-BYTE>/<VERSION>
		esc/<FINAL-BYTE>/<VERSION>
		g94/<FINAL-BYTE>/<VERSION>
		g94-2/<FINAL-BYTE>/<VERSION>
		g94m/<FINAL-BYTE>/<VERSION>
		g96/<FINAL-BYTE>/<VERSION>
		cs-sr/<FINAL-BYTE>/<VERSION>
		cs-wo/<FINAL-BYTE>/<VERSION>

		以上、形式は

			1行目:	CCS 名
			2行目以下:	属性名: 属性値

		というような STD 11 風な plain text が良いかな?

	names/
		char-features
			… Berkeley DB 形式。
				シンボル → <FEATURE>

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======




More information about the CHISE-ja mailing list