黒 澤公人の21世紀の図書館学 新日本語検索エンジン オトマトメ 

「一次情報ダイレクトアクセス」時代、「検索即閲覧」時代のドキュメンテーションシステムのあり方を考える。

新日本語検索エンジン オトマトメ (オノマトペではありません)

日本語書名検索エンジン(日本語全体を検索するものではありません。)

目録規則、新旧仮名遣いより調整

ヘ は、 エ に変換  目録規則より
ヲ は、 オ に変換  目録規則より
ハ は、 ワ に変換  目録規則より
ヂ は、 ジ に変換  目録規則より
ヅ は、 ズ に変換  目録規則より
ヱ は  エ に変換  旧仮名遣い
ヰ は、 イ に変換  旧仮名遣い
ホ は、 オ に変換  旧仮名遣い
フ は、 ウ に変換  旧仮名遣い

カタカナ語の乱れから調整

ト は、 タ に変換  カストマイズ、カスタマイズ 
レ は、 リ に変換  リポジトリ、レポジトリ、レポート、リポート
ヴァ は、 バ に変換
ヴォ は、 ボ に変換
ッ は、  無視する  ルネッサンス、ルネサンス、ハッピー、ハピー  
ウ は、 オ に変換する ウサマ、オサマ (ビン、ラーディン)  少し無理があるかも
ー は、 無視する  コンピューター、コンピュータ

漢字の特例
撰 は、 選 に変換  新撰組、新選組、

-----------------

漢字は、新旧漢字の変換をしているのに、カタカナの同音、仮名遣いの変換はどうして
しないのでしょうか?
名付けて 新日本語検索エンジン オトマトメ
但し、あまり、厳密性を追いかけると、日本語のカナ検索ができなくなってしまう可能性も
あるので、検証作業が必要ですが、誰かやって。

とにかく、書店のカナ検索システムはなんとかしなくてはいけません。
(日本語で検索できるふりをして、図書館目録語でないと検索できないのですから。)

---------------------------------
このような乱れは、日本語だけの問題ではありません
チャイコフスキーの綴り方は、全世界で、100近く存在するそうです。
ロシア語ー>英語、づランス語、ドイツ語、イタリア語など、いろいろなパターン表記されます。


新日本語検索方式(案)

漢字 新旧、異体字から検索できるようにする。
        特例として、新撰組、新選組 を、検索できるようにすること。        

カナ 「はへをぢづ」を、「ワエオジズ」に変換して検索すること



目録規則(カナヨミ変換)と検索技術の見落としされた問題

コンピュータによる日本語検索を行うために、漢字の新旧問題、異体字問題にあれほどにまで
取り組んできたのに、目録規則のカナヨミ変換については、なぜか、見落とされたまま、今日に
至ってしまった。

目録規則では、図書の読みは、助詞の「はへを」は、「ワエオ」に変換される。「ぢづ」も同音の
「ジズ」に変換される。

このような目録規則上の変換に対して、カタカナ検索では、なんの考慮もされていない。
漢字の新旧漢字、異体字と同じような変換処理することに、なにか、問題はあるのだろうか?

索引化時点の変換であれば、特に問題はないように思われるが、なにか、単純にそのように
してはいけない事情があるのだろうか?

図書館システム、図書検索技術は、この問題について、できるだけ早く解決すべきである。
しかも、おそらく、新旧漢字、異体字表に「はへをぢづ」を加えるだけで、問題が解決するのでは
ないかと思われる。



書店の店頭のカタカナによる検索システムは、本当にあれで、いいの か?


 図書データは目録規則に従って、作成される。しかし、書店の店頭にある
 タッチパネル方式の図書検索は、本当に有効か?

 ほとんど、混乱を招いているだけではないか?
 図書の売り上げが、落ち込んでいるのは、このようなシステムに対する気配りが
 なされていないということが代表する、利用者視点の欠落である。

(1)
 カナでしか検索できないのに、目録規則によるカナ変換「は、へ、を」などの助詞の
 問題、「づ、ぢ、旧かな」などの同音の問題に対して、あまりにも無頓着なシステム
 を、構築していることだ。
 この無頓着さは、図書館システムでも同じである。けれども、図書館システムでは
 漢字かな混じり文での検索が一般化しており、カナのみという入力はかなり少数と
 考えられ、実害は少ないと予想される。(もちろん、図書館システムでも、この問題は
 解決すべきだ。しかも、技術的には、非常に単純にできると思われる。)

 しかし、書店の店頭図書検索システムは、なぜか、タッチパネル方式のカタカナ検索のみで
 その代替え手段がない。
 助詞の「はへを」は、日常盛んに出てくる語である。
 「日本は・・・・」「政治は・・・・」「経済は・・・・」「アメリカを・・・・」「選挙へ・・・」
 などなど、無数の言葉が、関係している。
 「ニホンワ・・・」「セイジワ・・・・」「ケイザイワ・・・・」「アメリカオ・・・・」「センキョエ・・・」
 と、検索する必要があるのに、書店店頭図書検索システムは、それのガイドもなければ
 フォローもない。
 そのようなことを、システム的にフォローするのは、非常に簡単であると思われるのに
 一切、そのような対策もなされていない。
 (あまりにも、ヒットしない場合は、「は、を」に関する注意がでるシステムもあるようだが、
  そのような注記書きを出すくらいなら、システム的な対策を取ったほうがよいのではないか。
  普通の人は、日本目録規則を習っているわけではないのだから。」

 もしくは、タッチパネルで、「ハ」を押した時に、「ハ」か「ワ」のどちらかであるか、選択させる
 機能をつけるとか、考えるべきだ。

(2)
 書店で探している図書は、新刊図書なのに、なぜ、現在売られてもいない図書まで、
 検索するのか?

 書店で売っている図書は、多く場合に、最近出版された図書を探しているのに、
 混乱を招くように、書店では、既に売っていない図書まで検索するのか?

------------------------------------------------------------------------
 せっかくの図書検索システムであるのに、利用者視点で構築されていないのが、
 なんとも歯がゆい気がする。(他書店に一歩先駆けて、売り上げを伸ばすチャンスが
 ここにあると思われるが、そこに気が付く書店はいないようだ。) 





目録規則に殴り込み

吾輩は猫である を ヨミをつけると、 ワガハイ ワ ネコデアル になる。

最近は、カタカナのみで、検索することもないと思っていたら、
町の書店の検索は、タッチパネル方式なのでカタカナのみであった。


なにげなく、ある本があるか、気になって検索してみたら、ヒットしないので、あきらめて、家に帰る電車の中でおもいあたった。

「は」 を 「ワ」にしていなかったのだった。
図書館で目録規則を学んだ私にして、こうなのだ。
ましては、普通の人は、検索できるわけがない。

しかも、そのような注記もなく、システムで自動的に補正する機能もない。

まったく、混乱をよぶだけではないか。

たしかに、目録カードの時代に、頭の中で音を構成して、たどるには、「を」を「オ」する
意味の解らないでもないが、キーボードで検索する時代に、これはないだろう。

もともとの漢字カナ混じりテキストがあるのだから、目録規則などという例外事項を含んだ
ルールで行うより、なんの作為もなく、ヨミ変換するほうが、よほど、有効である。

しかも、「は」、「を」、「へ」も、日本語の中でもっともよく使われる「ひらがな」のヨミを変えてしまうんなんてとんでもない気がす る。

コンピュータにゆとりの時代なのから、両方から検索できるようにしておけばいいんじゃないかな。

ちなみに、NII で検索すると、
ワガハイワネコデアル と ワガハイハネコデアル の両方でヒットするが、 「ワ」の方が
多かった。