当サイトには広告が含まれております

YahooAPIの形態素解析を使ってblogの内容からタグを作る前準備

この記事は最終更新日から10年経過しています。内容が古い可能性があります。

Image

形態素解析(けいたいそかいせき)、ってご存じですか?私は最初にこの単語を口頭で聞いたとき「ケータイソカイセキ(^_^;???」って感じでした。

形態素解析については後述しますが使い方によっては便利なものだとおもいます。また、YahooAPIで形態素解析ができるので、blogの内容からタグを作るということをやってみる前準備をしてみたいと思います。

記事をざっと見る

形態素解析って何?

形態素とは wikipedia

形態素(けいたいそ、英: morpheme)とは、言語学の用語で、意味を持つ最小の単位。ある言語においてそれ以上分解したら意味をなさなくなるところまで分割して抽出された、音素のまとまりの1つ1つを指す

ということだそうです。文章を単語とかの単位にばらばらにして、解析するっていう感じでしょうか?

YahooAPI形態素解析を使ってみる

まず、形態素解析ってどんな感じか見たいと思いました。

テキスト解析デモ

Image

こちらで試すことができます。私は将来的にこれを使ってblogでタグ付け忘れている(というか付けてなかった)文章に自動的にタグを挿入するプログラムを作りたいと思うので、名詞を抜き出したいと思います。

このblogの別記事、Dropboxの容量が10倍に!同期させないフォルダの運用方法 を表示して文章の一部を

Image

選択、コピーして

Image

貼り付け、品詞と名詞にチェックを付けて、解析ボタンをクリックします。

すると画面の右側に

Image

こんな感じに名詞だけが取り出されました。はず、なのですがひらがな1文字とか、句読点も若干入ってしまってるようですね。でもまぁ、この辺はプログラムである程度フィルタリングできるかなと思いました。

プログラムで使うためにはアプリケーションの登録をしてアプリケーションIDをゲットする

自分のプログラムで使うためにはアプリケーションの登録をしてアプリケーションIDをゲットする必要があります。
*YahooIDへの登録が必要となります。登録済み前提で以下を書きます。

Yahoo日本語形態素解析

へ行って、右側にある

Image

アプリケーションを開発 をクリックします。

Image

ご利用ガイド ページになります。2 のアプリケーションを登録 をクリックします。

Image

入力欄が色々あるのですが、デフォルトで表示されたままにしておき 同意する にチェックを入れて、確認 を押します。

Image

登録 をクリックします。

Image

登録完了ページにアプリケーションID、シークレットが表示されます。これらをコピーペーストしてどこかに保存siteおきます。

アプリケーションIDがあるとローカルやサーバでphpから形態素解析ができる

先ほどWebページで利用したテキスト解析デモのプログラムをダウンロードして、自分のローカル環境などで動作させることができます。

サンプルコードはphpで作られているので、自分でコードを追加して例えば私がやりたいと思っているようなデータベースから文字列を参照してきて、名詞だけを抜き出すというようなことができるんじゃないかと思います。

ダウンロードは、形態素解析

Image

ダウンロードはこちら ボタンをクリックします。

sample2.zipというファイルがダウンロードされるので、解凍し、ローカル環境やWebサーバーのphpが動作するフォルダに ma_sample.php を移動します。
ma_sample.phpをコピーした場所がxampp\htdocs\ryuswp\ だったので、urlに

あわせて読みたい

と入力すると、

Image

こんな感じでフォームが表示されます。試しに解析をしてみたら、

Image

エラーが出てしまいました(>_<)。そうです、さっきアプリケーションIDを取得したのにセットするのを忘れてました。ma_sample.phpをテキストエディタなどで開き、

/**
* Yahoo! JAPAN Web APIのご利用には、アプリケーションIDの登録が必要です。
* あなたが登録したアプリケーションIDを $appid に設定してお使いください。
* アプリケーションIDの登録URLは、こちらです↓
* http://e.developer.yahoo.co.jp/webservices/register_application
*/
$appid = '<あなたのアプリケーションID>'; // <-- ここにあなたのアプリケーションIDを設定してください。

$appidというところに先ほど取得した、アプリケーションIDを入れて保存します。

これで、

Image

ちゃんと解析が動くようになりました(^^)/

ということで、これを使ってWordPressで書いたblogのタグ付け忘れているところに一気にタグを付けられるプログラムを作る前準備が終わりました。ここからが長い道のりになるかと思いますが、これからblogの内容からタグを作るプログラムを作ってみたいと思います。

この記事が気に入ったら
いいね または フォローしてね!

あなたのシェアが励みになります!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントを残す

記事をざっと見る