子育て情報アプリを作れるように vol12 ~タグを自動生成する その2~
前回の続きになります。
前回の記事投稿後、
@dkfjさんよりご指導頂きました。ありがとうございます。
Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例
- 作者: るびきち,佐々木拓郎
- 出版社/メーカー: SBクリエイティブ
- 発売日: 2014/08/25
- メディア: 大型本
- この商品を含むブログ (8件) を見る
また、テキストマイニングについて色々と調べたところ、
奥が深い
どころか
奥が深すぎて底が見えない
ことが分かりました・・・。
これらを理解すれば理想のタグが作れるかもしれません。
とても興味深い分野ではあるので、
一度書籍を購入して読んでみようと思います。
その際は、記事を書きたいと思います。
※気になった書籍は最後に書き残しておきます。
で、子育て情報アプリのタグについては
とりあえず名詞に形容詞を付けるようにだけ修正します笑
アルゴリズムは単純です。
「名詞」の一つ前の品詞が「形容詞」の場合は 文字列を連結させて一つの単語とする
です。
あとは、余計なタグはブラックリストに登録して
ひたすら取り除くことにします。
悔しいですが、とりあえずこれで様子見します。
<後で頑張って読む書籍>
- Amazon.co.jp: 言語処理のための機械学習入門 (自然言語処理シリーズ): 高村 大也, 奥村 学: 本
- わかりやすいパターン認識 | 石井 健一郎, 前田 英作, 上田 修功, 村瀬 洋 | 本 | Amazon.co.jp
- 史上最強図解 これならわかる!ベイズ統計学 | 涌井 良幸, 涌井 貞美 | 本 | Amazon.co.jp
- Amazon.co.jp: フリーソフトでつくる音声認識システム-パターン認識・機械学習の初歩から対話システムまで-: 荒木 雅弘: 本
- 図解でわかる多変量解析―データの山から本質を見抜く科学的分析ツール | 涌井 良幸, 涌井 貞美 | 本 | Amazon.co.jp
- Amazon.co.jp: はじめてのパターン認識: 平井 有三: 本
- 図解・ベイズ統計「超」入門 あいまいなデータから未来を予測する技術 (サイエンス・アイ新書) | 涌井 貞美 | 本 | Amazon.co.jp
今回はこの辺で。