にしし ふぁくとりー:西村文宏 個人サイト

Presented by Nishishi via Movable Type. Last Updated: 2022/03/25. 10:40:45.

辞書に載ってない単語もうまく検索結果に…

ライブドアが、ブログ検索サービスに使っているシステムを「N-gram方式」に変更したそうです。この方式にすると、形態素解析が不要なので、「単語の辞書」が要らないのだとか。辞書が不要ということは、「辞書にない単語」でもうまくヒットさせられる可能性があるということなんでしょうかね?たとえば、「にしし」みたいな。(^^;) 辞書にない単語だと、(一般的な検索サイトだと)検索結果にノイズが多く出てしまうんですよね。どうなんだろう?

ライブドア、ブログ検索をN-gram方式へ--対象は2000万ブログ超(@CNET Japan)

このN-gram方式というのは、形態素解析を使わずに、強制的に指定文字数で文章をぶった切って、それを「単語」として検索する方式らしいです。(ずいぶんいい加減な説明ですが。^^;;;)
まあその詳しい技術的な内容はおいといて、「辞書を使わない」という点がちょっと気になったんです。

形態素解析(=文章を単語に分解する作業)をするためには、単語の辞書が必要です。だから、辞書にないものは単語としては切り出せないのですね。例えば、「にしし」とか。(^^;)
(「にしし」で検索をかけると、「約33年ごとにしし座流星雨が観測」みたいな検索結果も上位に出てきます。^^;)

辞書にないから単語として切り出せないために、「本当に単語として使われてるところ」と、「偶然その並びで文字が出現してるところ」との区別が付けられずに、検索結果にノイズが出るのかな…と思うのです。むしろ、形態素解析によって、「に」を助詞だと判断してしまった結果、本来は単語として使われているところを誤解して見逃してしまう(ランクを下げてしまう)可能性もあるのかな…?と思うのです。

辞書を使わずに全文検索する方式なら、元々、「単語として使われている」か「偶然その並びで出現している」かは関係なく等価なわけですよね? とすると、(ノイズがなくなるようなことはないにせよ)、形態素解析によって誤って除外されるようなことがなくなって、よりいい検索結果が出てくるのかな…?とちょっと期待するわけです。

…で、まあ、いい検索結果が出るかどうかは、使ってみればすぐにわかるわけで。

実験してみました!
「にしし」での検索結果は...

  1. 確かにしし座流星群は毎年11月中旬なのですが
  2. 疲れた25人にししなべを用意
  3. ボタン鍋にしし鍋になるのか
  4. ちなみにしし座 ZOPPINI 正規取扱店
  5. そんで弁当にししゃもが入っていたせぃで

…がんばってここまで文章書いたのに、これか…。(笑)
いやまあ、そもそも、ブログの中で私の名前なんか書く人が居ないだろう、という話もあるわけですが。(今回のライブドアのは、ブログ限定の検索だもんなあ。)

…ええと、もう何が言いたかったのか分かんなくなってきたな。(笑)

辞書に載ってない単語でも、「それが単語として使われてる」ってのを識別して検索結果に出せるような検索手法ってないんですかね?

…というまとめでいいか。^^;;;
(なにもまとめられてないけど。)

(参考)「N-gram方式」を採用したイントラネット向け全文検索エンジン「WiSE」(@INTERNET Watch)

コメント

コメント数: 0件

コメント投稿欄 この日記に対するコメント投稿を歓迎します。



※本文中にURLは書けません。(書くと投稿が拒否されますのでご注意下さい。)

※ご投稿頂いた内容は、掲載前に管理者が確認する設定にしている場合があります。たいていは数日以内には表示されるはずですので、気長にお待ち願います。m(_ _)m

著者紹介


にしし(西村文宏)

にししでございます。本書いたり記事書いたりしてます。あと萌えたり。著書5冊発売中です(Web製作系4冊+小説1冊)。著書や記事は「西村文宏」名義。記事は主にAll Aboutで連載。本の最新刊は2011年3月に発売されたライトノベルでございますよ。

Twitter:にしし/西村文宏
にしし/西村文宏 on facebook にしし/西村文宏 on mixi フォローはお気軽に!

にしし(西村文宏)連絡先
☕ コーヒーをおごる

著書一覧と詳細

にししふぁくとりー Sakura scope内限定での主要なカテゴリ

--- 当サイト内を検索 ---