話し言葉から上手くキーフレーズを抽出する方法

スポンサーリンク
scrabble

話し言葉からキーフレーズを抽出したい

偶然書店では、YAHOO キーフレーズ抽出 APIを使用してツイッターでのつぶやきからキーフレーズを抽出していますが、ツイッターは”てにをは”がはっきり書かれてるわけではない話し言葉なので、それが原因でキーフレーズを適切に抽出できませんでした。例えば、以下のツイート。


これを、YAHOO キーフレーズ抽出 APIにかけると、以下のような値が帰ってくる。
<Result>
<Keyphrase>森口博子見たさ</Keyphrase>
<Score>100</Score>
</Result>
<Result>
<Keyphrase>おつかい</Keyphrase>
<Score>71</Score>
</Result>

いや、森口博子見たさって何?そこは森口博子を抽出してきてほしいわけです。

対策には、日本語形態素解析を使う

解決策としては、まず日本語形態素解析にかけて、日本語文を形態素に分割し、各要素の間に空白を入れた文章を作ってそれをキーフレーズ抽出にかけると、いい結果を返してくれることが分かりました。
例えば、先ほどのツイートを日本語形態素解析にかけると、以下のような情報が帰ってきます。

<ma_result>
<total_count>11</total_count>
<filtered_count>11</filtered_count>
<word_list>
<word>
<surface>はじめて</surface>
<reading>はじめて</reading>
<pos>名詞</pos>
</word>
<word>
<surface></surface>
<reading></reading>
<pos>助詞</pos>
</word>
<word>
<surface>おつかい</surface>
<reading>おつかい</reading>
<pos>名詞</pos>
</word>
<word>
<surface></surface>
<reading></reading>
<pos>助詞</pos>
</word>
<word>
<surface>森口博子</surface>
<reading>もりぐちひろこ</reading>
<pos>名詞</pos>
</word>
<word>
<surface>見たさ</surface>
<reading>みたさ</reading>
<pos>名詞</pos>
</word>
<word>
<surface></surface>
<reading></reading>
<pos>助詞</pos>
</word>
<word>
<surface></surface>
<reading></reading>
<pos>動詞</pos>
</word>
<word>
<surface></surface>
<reading></reading>
<pos>助詞</pos>
</word>
<word>
<surface>いる</surface>
<reading>いる</reading>
<pos>助動詞</pos>
</word>
<word>
<surface></surface>
<reading></reading>
<pos>特殊</pos>
</word>
</word_list>
</ma_result>

ここから、「はじめて の おつかい を 森口博子 見たさ に 観 て いる 。」という文章にして、これをキーフレーズ抽出APIにかけます。
すると、ちゃんと森口博子が抽出されてめでたしめでたしというわけです。



はい、とっても素敵ですね。

こちらもぜひお試しください、あなたの知らなかった運命の一冊に出会えるかもしれません。そんなWEBサービスです。

偶然書店
どんなサービス? ツイッターでのつぶやきの内容からその人が興味がありそうなキーワードを抜き出し、そのキーワードを使ってアマゾンの書籍を紹介...
スポンサーリンク
話し言葉から上手くキーフレーズを抽出する方法
この記事をお届けした
Findelightの最新ニュース情報を、
いいねしてチェックしよう!