libchise解説

守岡知彦 / MORIOKA Tomohiko tomo @ m17n.org
2004年 6月 12日 (土) 15:27:53 JST


>>>>> In [chise-ja : No.00370] 
>>>>>	"江渡さん" = Kouichirou Eto <2003 @ eto.com> wrote:

江渡さん> libchise関連で、ファイルの置き場所が今までと変更されてたので
江渡さん> すね。
江渡さん>  chise-db/character/feature/=ucs
江渡さん>  chise-db/character/by_feature/=ucs
江渡さん> こんな感じに。

その通りです。

こうした変更を行った理由は <chise-ja:00233> に始まる江渡さんが問題提起
した一連の議論の結果で、CHISE DB に文字素性の属性情報を記録するための
場所を作るためだったんですが、この肝心の部分はまだできてません。
(^_^;;;

江渡さん> これはXEmacs CHISEとは現在は整合がとれてないですよね?  最初
江渡さん> はよくわからなくて、はまってました…。

libchise と XEmacs CHISE との間ということであれば、現在の XEmacs CHISE
は(libchise 付きで build すれば (default))自前で Berkeley DB をいじ
らないので、整合します。

;; しかしながら、libchise を使わない場合の code も残ってて、そっちは整
;; 合してません。できれば、libchise を使わない場合の code は消してしま
;; いたいんですけど良いでしょうか?


江渡さん> > ;; utf-8-mcs には S 式への符号化処理は含まれてないので、な
江渡さん> > ;; んか別の名前を希望したいです。UTF-8-ESE とか?

江渡さん> 単にUTF-8-MCSの頭に?がついただけかと思ってたのですが、違いま
江渡さん> すね。別の名前が必要かな。どうでしょう。

libchise の code 的には S 式化のための quote 処理と UTF-8 化処理を一緒
にやってるんですが、概念的には普通は分離して考えるんじゃないかと思うの
で両者を一緒にしたものに名前を付けなくても良いかなと思います(とはいえ、
オブジェクトのバイト列化と考えるならば1つの概念なんで、それに名前があっ
ても良いかも)。

;; 確か、Java のバイト列化に使うらしいバッタモン UTF-8 に、なんか変な
;; 名前を付ける提案があったような気がするけど、はやってないなあ。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======




More information about the CHISE-ja mailing list