2010-05-25 [長年日記]
■図書館とシステムとデータ
昨日のエントリの続き。
適合率と再現率のどちらをとるか、という考え方の違いでもある。
しかし、「ヒットしない」のと「ヒットしてきたけどなんでヒットしたのか分からない」状況では、後者の方がマシだと私は思う。
と昨日は書いた。
これは「私は思う」という話であって、図書館の職員の方はそうは思わないかも。
「こういう本を探しているのだけど検索では見つからなかった。本当にないのか」と問われれば、本の名前を見ただけで目録規則に絡んだ間違いだとすぐに気づくかもしれない。目録規則に関してはプロなのだから。
けれど「こういう検索をしたらこんなのがでてきた。なぜ?」と問われてもすぐには答えられないかもしれない。システム開発のプロではないのだから。「は」と「わ」を同一視するような検索はどう実装されているのか。そんなことは知らないだろうし、知る必要は(本来)ない。
そのようなことから、ヨミでの検索では目録規則通りに入力しないとヒットしない仕様を許す図書館が出てきたのかも、とか想像する。
ここに一つのジレンマがある。
図書館システムに収められている資料のデータは誰のためのものか?
職員の方のためのものだ。
図書館を運営するのに、図書を分類し棚に並べるために、あるいは収蔵する本を選別し発注するために必要だから、そのデータはある。
では、図書館システムは誰のためのものか?
これは、結局のところは利用する人のためにある、と言える(国会図書館や県立図書館はまた少し事情は違うかもしれないけど)。
図書館を、快適に利用できるものにするために、システムは存在する。
この違いが、この断層が、問題を生んでいる。
元々は、資料のデータを利用者が検索するというのは図書館システムにとっては余技でしかない。
その様にデータができていないので、面倒さを利用者に押しつける形でしか提供できないという事態になっている。
技術的には色々と工夫することは可能だろう。
- 特に何もしない。助詞の「は」を検索するには「わ」と入力する必要がある。再現率の低下。
- 仮名の同一視を仕込む。意図しない本がヒットする。適合率の低下。
- 形態素解析を併用して、ヨミ項目の「ワ」が助詞の「は」にあたるかどうかなどをチェックする。データ登録時などのレスポンスの低下。
- 目録規則にこだわらず、日常的な感覚での検索用データを作る。データの価格*1に影響。
下にいくほどコストは高くなると思う。
システム開発のコストだったり、CPU時間やメモリ、HDDのコストだったり、データ作成のコストだったりと色々ではあるが。
ここにもジレンマがある。
図書館の本文は資料の収蔵と利用。図書館システムはそのための助けである。でも図書館システムの運用にも費用がかかる。
その費用でどれだけの資料が買えることか。
検索を便利にするためのコストでどれだけの資料が買えるか。
ということである程度、割り切って仕様を抑えるのも一つの判断。
しかし、現在では「Webで検索してみたけどでてこない」というのは大きな機会損失だろう。
もっと色々できることはあるはずなのでは?
■Landriaall 16
いまや数少ない"発売日に読みたい"マンガ。
クェンティンが口ずさんでる歌は Scarborough Fair だな。
「アトルニアは"古の竜"を持たない」とリゲインは言っていた。
でも今はエカリープに火竜の守護がある。
DXへの守護は竜創があるからであって、子孫に渡っていくものではないし、その点において他の国とは事情が違う。
「火竜の守護があること」がどんな意味を持ってくるのか。
クェンティンが蝶にしたことは何なのか。
リドが気づいた違和感は何なのか。
色々と気になることの多い巻。
*1 資料のデータは「商品」だ。図書館はお金を出してこれを買っている。