Hangul
守岡知彦 / MORIOKA Tomohiko
tomo @ kanji.zinbun.kyoto-u.ac.jp
2003年 9月 8日 (月) 20:14:51 JST
>>>>> In [chise-ja : No.00229]
>>>>> "原岡さん" = Yoshiyuki Haraoka <Yoshiyuki.HARAOKA @ NIFTY.COM> wrote:
原岡さん> 凄く素人の質問をお許し下さい。
;; いえいえ、大歓迎です。
;;; ハングル素人なのでちゃんと答えられてるか心配ですが。
原岡さん> CHISEは漢字の部首の組み合わせの文字データーベースと理解した
原岡さん> のですが、
CHISE Project ではは漢字の部首(というか部品)の組み合わせの文字データー
ベースである CHISE 漢字構造データベースを提供してますが、これは CHISE
Project の成果物の一部です。CHISE 自体は、(文字コードの代わりに)文字
素性の集合で文字を表現する文書処理環境を目指してます。
原岡さん> これはハングルにも応用しているのでしょうか?
今の所やってませんし私自身は今の所ハングルが読めないのでできないのです
が、Unicode Database にあるハングルの character name の表などを元に結
合型表現との対応表を作れば簡単に実現できるのではないかと思われます。
原岡さん> 最近、韓国人と付き合っているのですが、ハングルで変な組み合わ
原岡さん> せの文字が出力されていない事がありますので、CHISEの実装の方
原岡さん> がより効率よいと思ったのでした。
原岡さん> ハングルに応用した実装はすでにあるのでしょうか?
「変な組み合わせの文字」は古語なんでしょうか?それとも現代ハングル字母
(という言い方が正しいかどうかは分からないのですが)の範囲内での頻度の
低い組合せでしょうか?
ちなみに Unicode の場合、現代ハングル全組合せを precomposed で持ってお
り、多分、通常の用途ではこの方法で良いのではないかと思います。もちろん、
自然言語解析する場合は結合型表現の方が効率が良いかもしれませんが
(CHISE grep ができたあかつきには、precomposed でも結合型のように使え
るようになることでしょう)。
そういう訳で、Unicode 対応アプリケーションの場合、フォント(と入力メソッ
ド)の問題になると思います。
ちなみに、現状の XEmacs CHISE の場合、フォントがあれば現代ハングル全組
合せが表示できます。また、入力メソッドは Mule のままなので、おそらく、
KS C 5601 の範囲内になると思います。また、アルファベット系や漢字のよう
な文字結合対応表は現在定義してないので、結合型コードからの変換はサポー
トされてません。ただ、前述のようにこれらは容易に実現できると思います。
原岡さん> あと、Mac OS Xでも使える実装はあるでしょうか?(^^;
現在、CHISE 実装は全て Mac OS X で利用できます。なお、XEmacs CHISE を
使うには X が必要です。詳しくは、
http://cvs.m17n.org/chise/xemacs/install.mac-os-x.ja.html
をご参照下さい。
--
===『幾千億の分子に分かれても ========================================
決して忘れない。
この宇宙が終るまで』 守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======
More information about the CHISE-ja
mailing list