子育て情報アプリを作れるように vol11 ~タグを自動生成する~

今回は、
クローラーで収集したデータにタグ情報を追加していきます。

で、前々から使ってみたいと思っていた
Mecabという形態素解析器を使いたいと思います。
形態素解析というのは、
簡単に言うと文章を品詞単位に分解してくれるものです。
詳しく言うと・・・
知りません！グーグルで検索して下さい笑

　
今回の目標

Mecabの使い方を学ぶ
Mecabを使ってタグを生成する
TF-IDFを使う
自力でタグを生成する
今回の修正点

1. Mecabの使い方を学ぶ

mecabに限らず、使い方を学ぶ際は
「ruby ○○○」で検索すると、大抵ヒットします。
今回も同様に「ruby mecab」で検索して、調べました。

で、まずは以下を実行

(1) brew install mecab
(2) brew install mecab-ipadic
※ 下記はmecab-ipadic-neologdをインストールするために必要
(3) brew install curl
(4) brew install xz

次にgemfileを修正
gem 'mecab', '>= 0.966'
そしてbundle installを実行します。

次に最新の辞書情報を取得してきます。
古い辞書で良いならこの処理はスキップできます。

(1) git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
(2) cd mecab-ipadic-neologd
(3) ./bin/install-mecab-ipadic-neologd -n

以後、最新の辞書に更新したい時は
./bin/install-mecab-ipadic-neologd -n
を実行すれば良さそうです。

設定は以上です。

2. Mecabを使ってタグを生成する

では、早速Rubyから呼び出してみます。

require 'mecab'

mecab = MeCab::Tagger.new("-Ochasen -d /usr/local/Cellar/mecab/0.996/lib/mecab/dic/mecab-ipadic-neologd")
parseNode = mecab.parseToNode("解析したい文字列")

while parseNode
  # parseNode.surfaceには品詞単位に分解した文字列がセットされている
  #  parseNode.featureには分解した文字列の品詞情報がセットされている
  puts "#{parseNode.surface} => #{parseNode.feature}"
  parseNode = parseNode.next # 次の品詞へ
end

と書くだけです。
正直言うと"-Ochasen"の意味を分かって無いですが
まぁ良しとします笑

試しに解析したい文字列に
"１歳の赤ちゃん"
という文字列を渡すと

１ => 名詞,数,*,*,*,*,１,イチ,イチ
歳 => 名詞,接尾,助数詞,*,*,*,歳,サイ,サイ
の => 助詞,連体化,*,*,*,*,の,ノ,ノ
赤ちゃん => 名詞,一般,*,*,*,*,赤ちゃん,アカチャン,アカチャン

おぉ〜。

これを使って、よく出てくる単語を抽出してみます。

例えば、

名詞
動詞
形容詞

だけ取り出す場合はこんな感じで書きます。
f:id:tumiki_jp:20151005093251p:plain

続いて、
同じ単語が何回出てくるか集計します。
f:id:tumiki_jp:20151005093643p:plain

続いて続いて、
出現回数が多い単語順に並べ替えます。
f:id:tumiki_jp:20151005094130p:plain

最後に
ソートした上位の単語を登録すれば
よく出てくる単語がタグとして登録できます。
※最終的に私の作成したプログラムでは名詞だけ取り出すようにしています。
　

3. TF-IDFを使う

しかし、これだとまだ問題があります。
どの単語も一回しか出てこない場合は、どの単語が重要か分かりません。特にヤフー知恵袋のデータは
タグの基になるデータが「タイトル」しかなく、
そのタイトルも４０文字しかありません。これだと同じ単語なんて出てこない事の方が多いでしょう。

また、
同じ単語が何ども出てくるという事は
その単語がそのデータのタグとしてふさわしいと考えるのは安易すぎます。

　
どうしよ〜
と思ってネット検索していると
tf-idf
というキーワードが引っかかりました。

　
あれ・・・　
どこかで聞いたことがある・・・
　

　
クロ本！
早速読み返したらやっぱり書いてありました。
ただしヤフーAPIを使った形態素解析でした。
最初からこっち使えばよかった・・・
っていう話ですが、
もう後戻りできないので
Mecabを使った方法で突き進みます。

(1) TF-IDFとは

Wikipediaには、このように書かれています。

tf-idf は、文書中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。

わかりやすく言うとある文章を特徴付ける単語が何か判別してくれるということです。

(2) TF-IDFの考え方

公式は以下の通りです。

うーん、眠たくなってきた・・・笑
　
もう少し分かりやすく書くと

こうなるようです。
　
実際に例を出してみます。

ドキュメントＡ内の単語（子育て, 大変, 子育て, つらい, 育児, つらい）
ドキュメントＢ内の単語（子育て、楽しい、離乳食、おいしい, 育児）
[ドキュメントＡのTF]
  TF(単語)       = ドキュメント内の単語出現回数 / ドキュメント内の単語の総数
  TF(子育て)     = 2 / 6 = 0.33
  TF(大変)       = 1 / 6 = 0.16
  TF(つらい)     = 2 / 6 = 0.33
  TF(育児)       = 1 / 6 = 0.16
[ドキュメントＡのIDF]
  IDF(単語)      = log(ドキュメントの総数 / 単語が出現する文書の回数)
  IDF(子育て)    = log(2 / 2) = 0.00
  IDF(大変)      = log(2 / 1) = 0.30
  IDF(つらい)    = log(2 / 1) = 0.30
  IDF(育児)      = log(2 / 2) = 0.00
[ドキュメントＡのTF-IDF]
  TF-IDF(子育て) = 0.33 * 0.00 = 0.000
  TF-IDF(大変)   = 0.16 * 0.30 = 0.0480
  TF-IDF(つらい) = 0.33 * 0.30 = 0.099
  TF-IDF(育児)   = 0.16 * 0.00 = 0.000

この例では、
ドキュメントＡを特徴付ける単語は
「つらい」
になります。
つまり、「つらい」をタグとして登録すれば良いことになります。

なるほどなぁ〜って感じです。

(3) TF-IDFをRubyで実装する

TF-IDFについて少し理解したので、
プログラムを作成しようと思ったのですが、
ここでまたちょっとした壁が・・・。
TFの方は対象のドキュメントがあれば簡単に計算することができますが、
IDFの方は

ドキュメントの総数
対象の単語が出現したドキュメントの総数

が必要です。
この２つの値は分析する度に蓄積されていくものなので、
どこかに保存しておかないといけません。
とりあえず、jsonファイルに保存することにしました。
f:id:tumiki_jp:20151019022419p:plain こんな感じで、
あとでタグが更新できるように
URLと各単語の出現数を記録しておきます。

4. 自力でタグを生成する

あと、もう一つ問題があります。
Mecabを使って形態素解析すると
例えば、「１歳」という文字列は
「１」と「歳」に分解されてしまいます。
これだと、「１歳」というタグを作れないので
こういう時はMecabを使わずに自力で解析することにします。
解析と言うとすごくカッコいい感じがしますが、
大したことはしません。
単純に正規表現で抽出するだけです。
とりあえず今回は年齢を抽出するメソッドを作成しますが、
他にもタグにできそうな情報があればで後でメソッドを追加していけばいいと思います。
f:id:tumiki_jp:20151018231448p:plain