chise-core / chise-base 0.23 released.

守岡知彦 / MORIOKA Tomohiko tomo @ m17n.org
2006年 5月 21日 (日) 19:49:27 JST


>>>>> In [chise-ja : No.00512] 
>>>>>	NIIBE Yutaka <gniibe @ m17n.org> wrote:

> バイナリではないデータ形式が一日も早く配布されることを希望します。

ここでいうところの『バイナリではない』が何を指すかによりますが、
chise-db は可搬性のある編集可能なデータ形式という意味ではバイナリでは
ないです。

仮に、それが行指向の文字列で構成されるいわゆる plain text ってことであ
れば、確かに chise-db は plain text に基づいてません。

;; 下手すると、UTF-16 や UTF-32 の文字列でも plain text と思ってもらえ
;; ないかも知れないけど、それはいくら何でもどうかなという気も。まあ、
;; UTF-8 にせんかぁ!って話はあるけども。


そういうことは形式的には可能ですが、あんまり意味のある要望には思えない
のですが、いかがでしょうか?例えば、音声データや画像データ、ビデオスト
リーム、あるいは辞書なんかの場合、plain text じゃないとだめとはいわれ
ないと思います。有向グラフのデータを plain text にしても、サイズも増え
るし、編集も面倒になりかねません。

また、ある意味、define-char 形式はある訳ですが、あれでは不満がある訳で
すよね?


仮に、plain text であって欲しいという希望だとすると、それは、いわゆる
「紙テープの呪縛」の1つ :-) でしょうか?

   http://kura.hanazono.ac.jp/kanji/20040609symposium.report.html

個人的には、将来の CHISE は plain text の構造に囚われないテキストデー
タ(多分、それは、Concord のデータ・モデルと同じ有向グラフかな?;安岡
さんの主張するように、非循環であるべきかどうかは良く判んない)を
native な形式として読み書きできて欲しいと思ってたりします。

それは「紙テープの呪縛」を受けていないという意味で(呪縛を受けている)
plain text ではない訳ですが、plain text に期待される性質は全て継承して
いるはずです。


> 参考までにDebian BTS でコメント(文句)いただいてます。
> 	http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=302943

読み間違いかも知れませんが、なんとなく、ここでの要望は chise-db が『バ
イナリではないデータ形式』で配布されることを希望するものなんでしょうか?

前段は chise-db がバイナリー(アーキテクチャ依存)ではないという指摘で
すよね?

後段は chise-db のサイズに関するものだと思いますが、plain text 化とか
すると状況はさらに悪化すると思います。

後段で述べられているように、chise-db を単独の別パッケージにして、
CHISE-core から自動 download するのは可能でしょう。

また、多分、方向性としては、CHISE 汎用文字データベースを再構成して、幾
つかのモジュールに分離するというのが良いとは思いますが、素性単位なら現
在でも容易なものの、素性値自体をいじるような合成は現状では XEmacs
CHISE なしでは難しいです。また、どういうモジュールに分けるかというポリ
シーの問題もあります。

この件(特に、モジュール(カテゴリー)分けのポリシーの点)、将来的には
何とかしたいという気はするので、何かアイディアをお持ちの方は是非提案し
て頂きたいです。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======





More information about the CHISE-ja mailing list