単なる「雑学好き」で終わる人と、本当の教養を手に入れる人の差

国会図書館のデータベースでも、Googleブックスのような感覚で資料が探せると非常に便利ですが、現状では厳しいのでしょうか?

書物蔵:デジコレにも全文検索の機能自体はありますが、OCR(Optical Character Recognition/Reader:印刷された文字をスキャンし、デジタルのテキストに変換する技術)の精度が低いのが弱点です。文字化けや誤変換が多く、あまり当てになりません。

 ただ、国会図書館には「次世代デジタルライブラリー」というポータルが別にあって、デジコレの資料を別のOCRで処理したデータから全文検索をかけることができます。検索精度はこちらのほうが高く、これなら使いものになるなという印象ですね。ただし、検索対象に含まれる資料の数がまだ少ないのがネックです。

 なぜこういうややこしいことになっているかというと、よくも悪くもいろいろなプロジェクトを並行して走らせて、いいものは残し、ダメなものはなくそうというやり方だから。今後「次世代デジタルライブラリー」のほうがうまくいけば、デジコレ全体の全文データをそちらに差し替えていくこともありえるでしょうね。

読書猿:ひとことで言うと「発展途上」。なので、この機会に実情を一般の人にも知ってもらい、広く圧力をかけていきたい(笑)。

――現状では、デジコレのトップページと、次世代デジタルライブラリーの両方で検索をかけるのが得策ということですね。

関連記事(外部サイト)