Hangul

Shigeki Moro s-moro @ hanazono.ac.jp
2003年 9月 8日 (月) 22:31:38 JST


味覚だけは韓国人並と言われるもろです。

On 08 Sep 2003 20:14:51 +0900
tomo @ kanji.zinbun.kyoto-u.ac.jp (守岡知彦 / MORIOKA Tomohiko) san wrote:

> ちなみに Unicode の場合、現代ハングル全組合せを precomposed で持ってお
> り、多分、通常の用途ではこの方法で良いのではないかと思います。もちろん、
> 自然言語解析する場合は結合型表現の方が効率が良いかもしれませんが
> (CHISE grep ができたあかつきには、precomposed でも結合型のように使え
> るようになることでしょう)。

古語なんかの場合には、Unicode 的には U+1100-U+11FF を使えという
ことみたいですね。

ハングルの compose ⇔ decompose については、守岡さんが指摘してい
るように Unicode がデータベースを公開しており、それに基づいた Perl
5.8 付属の Unicode::Normalize モジュールで簡単に decompose 等が
できます(多分)。

Shigeki Moro

Hanazono University
s-moro @ hanazono.ac.jp
http://www.ya.sakura.ne.jp/~moro/

/bb|[^b]{2}/ that is the question.






More information about the CHISE-ja mailing list