にしし ふぁくとりー(西村文宏 個人サイト)

Presented by Nishishi via Movable Type. Last Updated: 2015/09/22. 13:22:07.

形態素解析してくれるサービス

Yahoo!が、日本語の文章を形態素解析して返してくれるWebサービスを始めたようです。形態素解析というのは、文章中の単語を分割して、品詞に分類する作業のことです。テキストマイニングの前処理に使ったりします。

このYahoo!のWebサービスAPIを使えば、ローカルにChaSen(茶筅)とかセットアップしなくても形態素解析できて楽になりそうだなあ。(^_^;;;

Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語形態素解析

試しに、「おもしろい日本のマンガ」という文字列を、Yahoo!で形態素解析させてみたところ、以下のよーな結果(XML)が返ってきました。(一部省略して転載)

<ResultSet>
   <ma_result>
      <total_count>4</total_count>
      <filtered_count>4</filtered_count>
      <word_list>
         <word>
            <surface>おもしろい</surface>
            <reading>おもしろい</reading>
            <pos>形容詞</pos>
         </word>
         <word>
            <surface>日本</surface>
            <reading>にほん</reading>
            <pos>名詞</pos>
         </word>
         <word>
            <surface>の</surface>
            <reading>の</reading>
            <pos>助詞</pos>
         </word>
         <word>
            <surface>マンガ</surface>
            <reading>まんが</reading>
            <pos>名詞</pos>
         </word>
      </word_list>
   </ma_result>
</ResultSet>

ちゃんと、名詞やら形容詞やら品詞が判別されてます。加えて、漢字の読み方も出てます。(reading要素)
こういうのがWebサービスAPIとして提供されると、なんかいろいろおもしろそうなことができそうな気がしてきますね…。(^_^;)

1つのIPアドレスにつき、24時間以内に50,000件以内のリクエストに制限されてます。が、50,000件なら十分でしょう。1回のリクエストの容量が100KBに制限されているので、与えられる日本語文章は最大50文字ということですね。約51万文字です。こんだけあれば十分ですね。(^_^;;;

ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開(@CNET Japan)

コメント

100KBなので、100Byteじゃないですよ。
100 * 1024 / 2 = 512000 文字

全然余裕なはずです。

投稿者 sukesam : 2007年12月31日 00:33

sukesamさん、どうもです。

あはは。勘違いでした。(笑)
そうですね。100Bytesじゃないですね。100KBです。
本文を修正しておきました。
100KBあれば十分ですねー。

投稿者 にしし : 2007年12月31日 09:54

コメント数: 2件

コメント投稿欄 この日記に対するコメント投稿を歓迎します。

保存しますか?



※本文中にURLは書けません。(書くと投稿が拒否されますのでご注意下さい。)

※投稿内容は、実際にページ上に掲載される前に、管理者によって確認される設定にしている場合があります。その場合は、投稿後にその旨が表示されます。たいてい1~2日以内には表示されるはずですので、気長にお待ち願います。m(_ _)m

トラックバック

このエントリーへのトラックバックURLを表示するにはここをクリック
※スパム防止のため、トラックバックURLは別ウインドウで表示します。(JavaScriptが有効でないと表示されません。)

--- 当サイト内を検索 ---