文字オブジェクトにおける関係の視覚化

守岡知彦 / MORIOKA Tomohiko tomo @ kanji.zinbun.kyoto-u.ac.jp
2005年 8月 26日 (金) 19:19:16 JST


>>>>> In [chise-ja : No.00464] 
>>>>>	"上地さん" = Koichi Kamichi <kamichi @ fonts.jp> wrote:

上地さん> #ちょっとKAGE関係の作業が滞っています。
上地さん> 
上地さん> 以前、守岡さんが公開されているCHISE-IDS検索について、文字オ
上地さん> ブジェクト間の関係を理解するための視覚化の拡張をやりたい、と
上地さん> 申し上げましたが、今簡単なテストをしています。たとえば「呉」
上地さん> で検索した場合、次のような画像が出てきます。
上地さん> 
上地さん> http://fonts.jp/graph.png
上地さん> 
上地さん> まだ、いまいちわかりやすくない気もしますが、とにかく1画面に
上地さん> 関連文字がすべて出てくるので、多少は良いかと思います。

>>>>> In [chise-ja : No.00465] 
>>>>>	"上地さん" = Koichi Kamichi <kamichi @ fonts.jp> wrote:

上地さん> 視覚化に関して、グリフを表示するところまでできました。
上地さん> (Firefoxで調整しています。要Ext.Bフォント、Win標準G,T,J,Kフォント)
上地さん> 
上地さん> http://fonts.jp/graph.html
上地さん> 
上地さん> あとはサーバにchise-dbとlibchiseが入れば、一応運用できます。

おお、素晴しいです。

ところで、文字間の関係 ->FOO, <-FOO は、文字 A, B がある時、

	A →FOO→ B
	B ←FOO← A

という意味で、A, B 間の矢印上に ->FOO と <-FOO の両方を書くのはおかし
いです(逆に、文字オブジェクト B 上に B →FOO→ A という情報が記載され
ていれば、双方向の矢印ができます)。

また、線に矢印があるなら、単に FOO と書けば良いのではないかと思います
(A {→FOO→|←FOO←} B の場合、両方向の矢印を書く必要がありますが)。

また、->subsumptive, ->denotational に関しては、もしかすると、入れ子状
の箱で表示した方が判りやすいかも知れません。


>>>>> In [chise-ja : No.00464] 
>>>>>	"上地さん" = Koichi Kamichi <kamichi @ fonts.jp> wrote:

上地さん> そこで、「呉」について細かい質問です。

>>>>> In [chise-ja : No.00465] 
>>>>>	"上地さん" = Koichi Kamichi <kamichi @ fonts.jp> wrote:

上地さん> 自己フォローですが、
上地さん> 
上地さん> > 1.jis-X0208 @ 1997だけU+5433とU+5449のconotationになってい
上地さん> > る理由はなんでしょうか。(jis-x0208はU+5449のdenotationに
上地さん> > なっているのに)
上地さん> 
上地さん> これについては、specsに「abstract characters based on the
上地さん> unification rule of JIS X0208:1997」と書いてありましたので理
上地さん> 解できました。

そのとおりです。

上地さん> が、いままで@{1978,1983,1990,1997}は、特にその版の字形を意識
上地さん> している、という理解だったので、1997は抽象的文字、というのが
上地さん> しっくりきません。これは、前に議論があった、どのCCSは抽象な
上地さん> のか具象なのか、という分別の明示化と関連するのだと思います。

<chise-ja:00430,00431,00433> での議論に基づき、

命名規則として、

      =CCS	その CCS の例示字形を指すもの(具象 CCS)
      ==>CCS	その CCS の包摂規準で包摂するもの(抽象 CCS)

を採用し、文字素性属性で抽象・具象関係を明記する方向で行きたいと思いま
す。

ただ、歴史的事情から、=ucs, =jis-X0208 @ 1997 は抽象のままで行きたいです
(==>ucs, ==>jis-X0208 @ 1997 を設けた上で、従来のを alias にしても良い
ですけど)。また、Big5 など例示字形が謎なものとか、そもそも例示字形が
ないもの、本質的に抽象 CCS なものはどうしましょう?そういうのは =CCS
でも良いと思いますし、敢えて ==>CCS とするのもありだと思います。


上地さん> 2.c6-2645とhanziku-2(ucs @ iso 20BF5)とdaikanwa3367が3つに
上地さん> 分かれている理由はなんでしょうか。一見同じ字形に見えます。

(a) M-03367 と (b) H2-CCF6 = IU+20BF5 および C6-2645 は、「ユ」状の部
分の縦線が傾いているか否かで分離してしまったようです。

(b-1) H2-CCF6 = IU+20BF5 と (b-2) C6-2645 は「口」の幅に対して「ユ」状
部分の上辺の幅が (b-1) ほぼ同じ か (b-2) 明らかに長い かで分離してしまっ
たようです。

本当に些細な差なので、同一化しても良いとは思います。特に、(b-1) と
(b-2) は同一化しても良い気はします。



上地さん> コメントというか、vulgarのソースが記述できるのっていいですね。
上地さん> 先日の甲府(人文コン発表会)でも少し話題になりましたが、諸橋
上地さん> 大漢和の異体字関係記述データというのは公開されているものはな
上地さん> いのでしょうか?入力完了+公開決定 (勝手に決め付け)が待ち遠
上地さん> しいです。

私が細々とやってるので遅いのですが、少しずつ XEmacs CHISE 附属の文字デー
タベースに merge してます。現在、Ideograph-R162-Walk.el にはほぼ入って
ます。

;; 当初、入力者が有向グラフの矢印の向きの概念を理解してなかったので、
;; 方向性がでたらめになってます。(^_^; なので、ちょっと校正は面倒です。
;; CHISE 文字データベースに取り込むと、CSV 形式の表よりは、方向性のチェッ
;; クは楽なんですが。


上地さん> #あとすみません、vulgarって、「俗字」ですが、この単語は漢字
上地さん> における「俗字」として一般的なのでしょうか。vulgarを辞書でひ
上地さん> いたときに少し驚きました。

ググった感じでは、vulgar forms などの vulgar 系と、popular character 
などの popular 系が多いように感じます。ちなみに、JIS TR X 0003:2000 で
は informal shape としてます。

私が vulgar を採用したのは、俗ラテン語を Vulgar Latin というのに倣って
です。ちなみに、vulgar の原義は“of the common people”なのだそうなん
で、popular と意味的には大差ない気がします。

でまあ、正直言って自信はないのです。ただ、popular は誤解を招きそうな気
がするので良くない気がします。また、informal というのも規範的な感じが
しますし。その点、vulgar のラテン語っぽい感じが良いかなと。また、
vulgar tongue がやがてフランス語やスペイン語や英語といった新たな規範的
言語になった所が、俗字がやがて常用漢字という規範的文字になったのに似て
るような気がして良いかなと。あ、でも、あんまり自信はないです。

ちなみに、Unicode の character name では <VULGAR FRACTION *> という用
例があります。

-- 
===『幾千億の分子に分かれても ========================================
     決して忘れない。    
     この宇宙が終るまで』              守岡 知彦 (MORIOKA Tomohiko)
====================== Email: <tomo @ kanji.zinbun.kyoto-u.ac.jp> ======





More information about the CHISE-ja mailing list