[ids] make install (Re: 漢字の部品化)

2002年 12月 1日 (日) 23:07:05 JST

>>>>> In [chise-ja : No.00066] 
>>>>>	"師さん" = Shigeki Moro <s-moro ＠ hanazono.ac.jp> wrote:

師さん> 師です。今日は面接入試の審査員をしてました (^_^;)

;; （うらしまフォローでなんなんですが）うーむ、ご苦労さまでした。

師さん> On 27 Nov 2002 19:12:24 +0900
師さん> tomo ＠ kanji.zinbun.kyoto-u.ac.jp (守岡知彦 / MORIOKA Tomohiko)
	san wrote:

師さん> をを、すばらしい。これもチュートリアルにいれましょうか。

そうですね。

;; あと、文字データベースの再構成関係の話もそのうちどっかに書きたいと
;; 思います。


師さん> あるいは、現在、トップページに併記されているXEmacs UTF-2000以
師さん> 外のサブプロジェクトを別ページにし、文字知識サブグループの中に、
師さん> IDSのチュートリアルを作りましょうか。

師さん> トップ
師さん> 　├文字知識データベースに基づく文字処理アーキテクチャの開発
師さん> 　│├XEmacs UTF-2000
師さん> 　│└Ruby/UTF-2000
師さん> 　├TopicMaps
師さん> 　├文字知識DB
師さん> 　│├IDS
師さん> 　│└グリフ合成
師さん> 　└可視化

師さん> みたいに。

私もそんな感じにしようかと思ってました。そうしちゃいましょう。あと、トッ
プ頁がごちゃごちゃしてきたので、トップ頁はそれぞれのサブプロジェクトの
題名だけにしましょうか。（SVG 版を作って、全体構想図のそれぞれのパーツ
をクリックするというのもちょっと良いかなと思ってたりします）

師さん> # いつのまにかトップページが充実している。Rubyの提案よさげですね。

# Wiliki の江渡さんの記述からぱくってきました。（問題あったらごめんな
# さい）（そういえば、LC2001 Fall の時だったっけ？に半田さんやまつもと
# さんと激論!?を交わしたのを思い出しました）

師さん> > ところで、ideographic-structure-search-chars で指定する部品
師さん> > として
師さん> > 
師さん> >  (a) 例えば、「水」で<さんずい>とか「肉」で<にくづき>とかに
師さん> >      マッチした方が良いでしょうか？

師さん> 良いです。strictなマッチも残しておいて欲しいですが。

これに関しては何もなければ現状通りで、C-u を付けるといろいろマッチする
か、あるいは、マッチの仕方を選択するかのどっちかにするということを考え
ています。

また、単純にいろいろマッチするとたくさんの文字が出て来すぎるので、ここ
は藤原さんらに頑張ってもらって!?、文字の出力順を工夫したい所です。

それから、構造を使って検索する関数もあったら良いかなと思っています。例
えば、
-------------- next part --------------
	?木?
-------------- next part --------------
だと「木」の横に何かあるパターンにのみマッチして、「杏」みたいなのには
マッチしないとか。

あと、CBETA 組字表記も使えると良いかなと思ってたりします。例えば

	河-可

で〔さんずい〕を表すとか。また、さらにこれを拡張して変数を導入すれば、

	x*x

で同じ部品が横に並んだ形を表すとか、

	旗-其+x

で「旗」とか「旅」とかにマッチする形を表すとかも良いかなとちょっと思っ
てたりします。Lisper な人の場合 IDS っぽい方が良いと思いますけど。:-)

それはともかく、CBETA 組字表現 parser もそのうち整理して、ids package
（あるいは、それ以外の公開 module）に入れようと思ってます。


師さん> 属性の拡張については、フォント合成に絡んでくると思うので、もう少
師さん> し考えてから後でコメントします。

そうですね。あと、部品をどう使うかという話は、もう少し一般化すると、文
字の使用状況を文字レベルでどう記述するかという話になる気がするので、も
う少し一般的な枠組を考えた方が良いかも知れません。


師さん> > また、このとき、
師さん> > 
師さん> >  (a') 例えば、<さんずい>で「水」とか<にくづき>で「肉」とかに
師さん> >  マッチした方が良いでしょうか？

師さん> 良いです。strictなマッチも（以下同）

師さん> ちなみに、ideographic-structure-search-charsで部品を指定する際、
師さん> cannaなどで入力すればもちろんちゃんと動きますが、cannaで入力で
師さん> きないような文字（部首とか）をコピー＆ペーストすると変な文字が
師さん> マッチしませんか？（具体的な例は後で）

文字定義を持たない『文字』（組込み文字；UTF-2000 的には「文字」ではな
いが Emacs Lisp 的には character であるもの）を入れると必要な文字属性
がない訳ですが、その場合、空のものはどんな文字ともマッチするようにして
しまっているせいでおかしくなるようです。この場合を場合分けして、eq以外
を無効にする必要があります。


師さん> >  (b) 「ホ」のようなカタカナとか BOPOMOFO みたいなので似た形
師さん> >  の漢字が見つけられた方が良いでしょうか？

師さん> 良いです。strictな（以下同）　カタカナは漢字から派生したわけで
師さん> すから、簡体字の部首みたいな位置づけでもよいと思ったりします。
師さん> もちろん意味は失われているので、簡体字の部首よりも元の漢字との
師さん> つながりは薄くなるわけですが。

師さん> ありがちなのは「厶」と「ム」とかですね。「夕」と「タ」とか。「巛」
師さん> と「くくく」はちょっとあれか。「肉」→<にくづき>→same-glyph→
師さん> 「月」とかもそうですかね。

師さん> BMPの範囲で適当にリストアップしたのを添付してみました。足したり
師さん> 引いたりしなければならないと思いますが、とりあえず叩き台として。

ありがとうございます。

師さん> # 2chの検索エンジンに使えたりして (^_^;)

;; むむむ。(^_^;

;; そういえば、文字属性の集合 (char-spec 等) 系の buffer/string 検索系
;; API/UI を整備しないといけないという課題がありますが、なんか良いアイ
;; ディアありませんか？現行の Emacs の正規表現は文字列なわけですが、良
;; く考えるとそんな必要はない訳で、現行とは違う系列の API を新設するの
;; が良いかなと思ってたりします。もっとも、UI の場合、文字列で入れるし
;; かない訳で、どうしたもんかと悩んでます。実用的には unification の設
;; 定が書けるだけで良いのかな？


師さん> > (b) に関しては、`->same-glyph', `<-same-glyph' とか `->confusing',
師さん> > `<-confusing' を導入してはどうかと思います。

師さん> OKだと思います。UnicodeのNormalizationとは分けるか、別立ての方が
師さん> いいですよね。

そう思います。