[chise-vis:4] Re: Network of Words

Yoshi Fujiwara yfujiwar @ atr.co.jp
2002年 12月 3日 (火) 10:32:53 JST


ML: chise-vis @ quickml.com
新メンバー: chise-ja @ m17n.org

藤原です.

chise-ja にも投げてみました.

江渡さん曰く:
> 漢字は英語の単語に相当するという表現がなされるが、これがどの程度妥当かを
> 定量的に評価できると面白い。
> 今度は言語間の違いを定量的に分析できるようになるはず。

私のねらいも同じです.実際そうかどうかはやってみないと分からないと思い
ます.違いも含めて.

> 同様の手法を用い、英単語においても、それぞれの単語を部品に分け、

これに関してはアイデアがあります.

知人(青山 秀明)がケンブリッジの人と面白い研究をしています.英語の単語
の部品はsyllableだと私は思います.漢字が部品を組み合わせて,意味や音の
あいまいさを解消していったのと対照的に,英語はsyllableを組み合わせていっ
たのではと思うのですが.いずれにせよケンブリッジの人(John Constable)は,
大規模syllableデータベースを自作されたのです.

それで,実際の英語の散文の大規模なデータベースを取り,音節の数字の列に
します.まず,任意の単語から始めて,何音節後に単語の切れ目がくるかとい
う統計を取ります.ほぼ一様な確率が得られます.その事実から簡単な解析を
すると,人が散文で使用するクラスに限った場合に,一単語の音節数の分布が
得られます.一方,実際に辞書に載っているクラスを見ていると,同じ分布が
異なった分布を持つことが分かるのです.

分布の違いが人のコミュニケーションに対してどのような意味を持つかとか
(一音節からどのように進化したか等),韻文では異なるとか,一見散文のよう
に見えて実は違う作品の解析とか拡がるのですが,私は少なくとも現在

o 漢字の部品数を,一単語の音節とまったく同じだと考えて,同じことを適当
なデータベースでやったらどうなるか.

o 英語の音節には,漢字のような部品に相当するものがあるのか.あるとする
と部品と単語(漢字)のつながりは同じ構造を持つか.

という2点に興味を持っています.

私が上記ふたりの仕事を面白いと思うのは,意味に直接タッチせずに,人がど
のように意味を伝達しているかに踏みこんでいるうまさです.意味に踏みこむ
と泥沼ですからね.

ということで,chise の方にもやがてはお聞きしたいのは

o 当時(when?)の散文であるような大規模データベースを探しております
  仏教文献データベースってどんなもの?
o 文章から各漢字の部品数の列に変換するにはどうしたら

などなどという状況ですね.

以上

--
ML: chise-vis @ quickml.com
使い方: http://QuickML.com/

<chise-vis @ quickml.com> のメンバー:
2002 @ e...
suzuki @ g...
yfujiwar @ a...
chise-ja @ m...




More information about the CHISE-ja mailing list