Presented by Nishishi via Movable Type. Last Updated: 2007/12/31. 09:54:14.

形態素解析してくれるサービス

Yahoo!が、日本語の文章を形態素解析して返してくれるWebサービスを始めたようです。形態素解析というのは、文章中の単語を分割して、品詞に分類する作業のことです。テキストマイニングの前処理に使ったりします。

このYahoo!のWebサービスAPIを使えば、ローカルにChaSen(茶筅)とかセットアップしなくても形態素解析できて楽になりそうだなあ。(^_^;;;

Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語形態素解析

試しに、「おもしろい日本のマンガ」という文字列を、Yahoo!で形態素解析させてみたところ、以下のよーな結果(XML)が返ってきました。(一部省略して転載)

<ResultSet>
   <ma_result>
      <total_count>4</total_count>
      <filtered_count>4</filtered_count>
      <word_list>
         <word>
            <surface>おもしろい</surface>
            <reading>おもしろい</reading>
            <pos>形容詞</pos>
         </word>
         <word>
            <surface>日本</surface>
            <reading>にほん</reading>
            <pos>名詞</pos>
         </word>
         <word>
            <surface>の</surface>
            <reading>の</reading>
            <pos>助詞</pos>
         </word>
         <word>
            <surface>マンガ</surface>
            <reading>まんが</reading>
            <pos>名詞</pos>
         </word>
      </word_list>
   </ma_result>
</ResultSet>

ちゃんと、名詞やら形容詞やら品詞が判別されてます。加えて、漢字の読み方も出てます。(reading要素)
こういうのがWebサービスAPIとして提供されると、なんかいろいろおもしろそうなことができそうな気がしてきますね…。(^_^;)

1つのIPアドレスにつき、24時間以内に50,000件以内のリクエストに制限されてます。が、50,000件なら十分でしょう。1回のリクエストの容量が100KBに制限されているので、与えられる日本語文章は最大50文字ということですね。約51万文字です。こんだけあれば十分ですね。(^_^;;;

ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開(@CNET Japan)

この日記へのコメントはお気軽に! コメント数:2 トラックバック数:0

コメント

100KBなので、100Byteじゃないですよ。
100 * 1024 / 2 = 512000 文字

全然余裕なはずです。

投稿者 sukesam : 2007年12月31日 00:33

sukesamさん、どうもです。

あはは。勘違いでした。(笑)
そうですね。100Bytesじゃないですね。100KBです。
本文を修正しておきました。
100KBあれば十分ですねー。

投稿者 にしし : 2007年12月31日 09:54

コメント数: 2件

コメント投稿欄 この日記に対するコメント投稿を歓迎します。

保存しますか?



※本文中にURLは書けません。(書くと投稿が拒否されますのでご注意下さい。)

投稿後、投稿できていないように見えることがあります。ブラウザのキャッシュが読まれているだけですので、ページを再読込すれば(=たいてい[F5]キーを押せば)投稿内容が反映されていることが確認できるはずです。連続投稿を試す前にご確認下さい。(^^;)

トラックバック

このエントリーへのトラックバックURLを表示するにはここをクリック
※スパム防止のため、トラックバックURLは別ウインドウで表示します。(JavaScriptが有効でないと表示されません。)