タグ付けに必要なのはシソーラス辞典ではないか

はてぶの少数タグ主義の管理人さんか、たくさんのタグがあるが捜… - 人力検索はてなで思ったことは、タグ付けに必要な機能というのはシソーラス辞典(類語辞典)ではないだろうかということだ。

タグのつけ方はいろいろあるわけだが、すでにタグ付けした人に倣ってタグをワンクリックでつけれる今のはてブの機能性はなかなか便利だと思う。

しかし、類似の意味合いのタグが氾濫することに対して、はてなのシステムはなんらの解を持たない。

はてなキーワードとかでシソーラスを登録できるようにして、シソーラスを同一視するような処理をかますことで、タグの表記のブレを解消できる可能性がある。*1

私が願うタグ付けの方法

タグ付の際に、カテゴライズ方法論が先に立つというのは鬱陶しいように思う。

どのようにカテゴライズするかを全てのタグ付け行為に対して適用するなんてのはアスペクト*2であって容易ではない。

ある種のカテゴライズ方法があって、それにそってカテゴライズするのではなく、単に要約というか連想というか、そうした意味付けのタグをぽんっと書いて登録する。すると、シソーラスはちゃんと集約されて、このブックマークはこのようなキーワードで評価されているよ、というものが出てくるというのがセマンティックWebを目指すなら有効なように思う。

シソーラスでは解決できない問題

逆に類語ではなく、同じ表記で複数の意味を持つ単語をどう扱うべきかという話題は残る。また、JavaScriptを誤ってJavaと呼ぶような事例をどうするかという問題もある。*3

SBMは評価システムたりうるか? - プログラマーの脳みそで書いたように、評価システムとしてSBMを考えると、1票の粒度は大きすぎる。これをさらにシソーラスの表記のブレによってばらしてしまうのは避けれるなら避けて欲しいことだ。

*1:システムを作る側からすればシソーラス対応なんてやろうとした日には一気に難易度が上がるから勘弁してほしいところではあるが

*2:IT用語。アスペクト指向。全てのXXにYYを一律に行う、というテーマを扱う。人力ではヒューマンエラーの関係もあり漏れなく実施することが難しい

*3:言葉の汚染をどうやって防ぐかということ。意味をよく理解せずに使用されると、悪化が良貨を駆逐するように本来の意味付けが失われて誤用が幅を利かせることになる。