形態素解析(けいたいそかいせき)、ってご存じですか?私は最初にこの単語を口頭で聞いたとき「ケータイソカイセキ(^_^;???」って感じでした。
形態素解析については後述しますが使い方によっては便利なものだとおもいます。また、YahooAPIで形態素解析ができるので、blogの内容からタグを作るということをやってみる前準備をしてみたいと思います。
形態素解析って何?
形態素(けいたいそ、英: morpheme)とは、言語学の用語で、意味を持つ最小の単位。ある言語においてそれ以上分解したら意味をなさなくなるところまで分割して抽出された、音素のまとまりの1つ1つを指す
ということだそうです。文章を単語とかの単位にばらばらにして、解析するっていう感じでしょうか?
YahooAPI形態素解析を使ってみる
まず、形態素解析ってどんな感じか見たいと思いました。
こちらで試すことができます。私は将来的にこれを使ってblogでタグ付け忘れている(というか付けてなかった)文章に自動的にタグを挿入するプログラムを作りたいと思うので、名詞を抜き出したいと思います。
このblogの別記事、Dropboxの容量が10倍に!同期させないフォルダの運用方法 を表示して文章の一部を
選択、コピーして
貼り付け、品詞と名詞にチェックを付けて、解析ボタンをクリックします。
すると画面の右側に
こんな感じに名詞だけが取り出されました。はず、なのですがひらがな1文字とか、句読点も若干入ってしまってるようですね。でもまぁ、この辺はプログラムである程度フィルタリングできるかなと思いました。
プログラムで使うためにはアプリケーションの登録をしてアプリケーションIDをゲットする
自分のプログラムで使うためにはアプリケーションの登録をしてアプリケーションIDをゲットする必要があります。
*YahooIDへの登録が必要となります。登録済み前提で以下を書きます。
へ行って、右側にある
アプリケーションを開発 をクリックします。
ご利用ガイド ページになります。2 のアプリケーションを登録 をクリックします。
入力欄が色々あるのですが、デフォルトで表示されたままにしておき 同意する にチェックを入れて、確認 を押します。
登録 をクリックします。
登録完了ページにアプリケーションID、シークレットが表示されます。これらをコピーペーストしてどこかに保存siteおきます。
アプリケーションIDがあるとローカルやサーバでphpから形態素解析ができる
先ほどWebページで利用したテキスト解析デモのプログラムをダウンロードして、自分のローカル環境などで動作させることができます。
サンプルコードはphpで作られているので、自分でコードを追加して例えば私がやりたいと思っているようなデータベースから文字列を参照してきて、名詞だけを抜き出すというようなことができるんじゃないかと思います。
ダウンロードは、形態素解析の
ダウンロードはこちら ボタンをクリックします。
sample2.zipというファイルがダウンロードされるので、解凍し、ローカル環境やWebサーバーのphpが動作するフォルダに ma_sample.php を移動します。
ma_sample.phpをコピーした場所がxampp\htdocs\ryuswp\ だったので、urlに
と入力すると、
こんな感じでフォームが表示されます。試しに解析をしてみたら、
エラーが出てしまいました(>_<)。そうです、さっきアプリケーションIDを取得したのにセットするのを忘れてました。ma_sample.phpをテキストエディタなどで開き、
/** * Yahoo! JAPAN Web APIのご利用には、アプリケーションIDの登録が必要です。 * あなたが登録したアプリケーションIDを $appid に設定してお使いください。 * アプリケーションIDの登録URLは、こちらです↓ * http://e.developer.yahoo.co.jp/webservices/register_application */ $appid = '<あなたのアプリケーションID>'; // <-- ここにあなたのアプリケーションIDを設定してください。
$appidというところに先ほど取得した、アプリケーションIDを入れて保存します。
これで、
ちゃんと解析が動くようになりました(^^)/
ということで、これを使ってWordPressで書いたblogのタグ付け忘れているところに一気にタグを付けられるプログラムを作る前準備が終わりました。ここからが長い道のりになるかと思いますが、これからblogの内容からタグを作るプログラムを作ってみたいと思います。
コメント