Ruby
前回の続きになります。 前回の記事投稿後、 @dkfjさんよりご指導頂きました。ありがとうございます。 Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例作者: るびきち,佐々木拓郎出版社/メーカー: SBクリエイティブ発売日: 2014/08/25メディ…
今回は、 クローラーで収集したデータにタグ情報を追加していきます。 で、前々から使ってみたいと思っていた Mecabという形態素解析器を使いたいと思います。 形態素解析というのは、 簡単に言うと文章を品詞単位に分解してくれるものです。 詳しく言うと・…
今回はYamlファイルを使って クローラーの検索キーワードを読み込めるようにします。 多分、ヤムルと呼びます。 Yamlについては http://magazine.rubyist.net/?0009-YAML#l2 に詳しく書かれています。 今回の目標 Yamlを理解する Yamlファイルを読み込む 1. …
前回、クローラーで収集したデータを データベースへ保存する所まで実装しました。 しかしながら、前回のプログラムだと クローラーを実行する度に同じデータをデータベースに保存してしまいます。 そこで、今回は同じデータを保存しないように 重複チェック…
今回はクローラーが収集したデータを データベースに保存していきたいと思います。 データベースにはPostgreSQLを使っていきます。 PostgreSQLを使う理由は、 Herokuというサービスと連携するのに都合が良さそうだからです。 Herokuについては実際に使う時に…
今回はヤフー知恵袋のクローラーを作っていきます。 子育ての悩みって尽きないですよね。 そんな時にヤフー知恵袋を見ると同じ悩みを持った人って結構います。 なので、そういった情報を収集する事で 少しでも悩みを解決しようという目的です。 今回の目標 …
今回は、 子育てと言えば、赤ちゃん! 赤ちゃんと言えば、離乳食! ということで、 クックパッド(cook pad)のサイトから 料理の情報を取ってくるクローラーを作っていきます。 今回の目標 cookpadから料理情報を取得する 1. cookpadから料理情報を取得する…
前回からかなり時間が経ってしまいました。 言い訳すると、 仕事が忙しかったり、 子育てでいっぱいいっぱいだったり、 お盆休みだったからです。 すみません… 今回は、Youtubeから子育て動画を取得してみたいと思います。 今回の目標 簡単に全体を設計する …
chapter1の続きを読み進めます。 chapter1では最終的に、 あるサイトのトピックス情報を取得し、 RSS配信するところまでやります。 完成するとこんな感じ 本通りに書き写しただけと言われればそこまでなんですが、 自分の手で書いたものが動くとちょっと感動…
本のChapter1から進めます。 Chapter1のタイトルは「10分クローラーの作成」となっています。 いきなり、ワクワクさせるタイトルです。 まずは写経するところから。 本通りに作っていきます。 10分では作れませんでした笑。 というのもRubyの各種メソッドに…