クローラー
今回はクローラーが収集したデータを データベースに保存していきたいと思います。 データベースにはPostgreSQLを使っていきます。 PostgreSQLを使う理由は、 Herokuというサービスと連携するのに都合が良さそうだからです。 Herokuについては実際に使う時に…
今回はヤフー知恵袋のクローラーを作っていきます。 子育ての悩みって尽きないですよね。 そんな時にヤフー知恵袋を見ると同じ悩みを持った人って結構います。 なので、そういった情報を収集する事で 少しでも悩みを解決しようという目的です。 今回の目標 …
今回は、 子育てと言えば、赤ちゃん! 赤ちゃんと言えば、離乳食! ということで、 クックパッド(cook pad)のサイトから 料理の情報を取ってくるクローラーを作っていきます。 今回の目標 cookpadから料理情報を取得する 1. cookpadから料理情報を取得する…
前回からかなり時間が経ってしまいました。 言い訳すると、 仕事が忙しかったり、 子育てでいっぱいいっぱいだったり、 お盆休みだったからです。 すみません… 今回は、Youtubeから子育て動画を取得してみたいと思います。 今回の目標 簡単に全体を設計する …
前回、書籍「Rubyによるクローラー開発技法」(以下クロ本)を一気読みしました。 で、今回から クローラー技術を使ったオリジナルアプリを作っていこうと思います その名も 子育て情報アプリ です。 簡単に言うと、 子育てに関係する情報(食事、遊び、病気、…
前回でchapter2まで終わりました。 今回からchapter3 と言いたいところなんですが、 実は クロ本が面白すぎて 最後まで一気に読んでしまいました。 (ちょっとだけ飛ばしたところもあります) 一気に読んだ時の私の脳内を解説すると chapter3 チャプター3は「…
今回は、 chapter2のリンク抽出機能を勉強していきます。 やる事は ヤフーのトップページを開く ページ内のAタグを抽出する Aタグのhref属性からURLを取得する 取得したURLを使ってページ遷移を行う スクリーンショットを撮って保存する です。 とりあえず、…
今回は勉強に入る前に一つ。 今まで読み進めてきた 「Rubyによるクローラー開発技法」 なんですが、 「本」と書いたり 「書籍」と書いたりと、 統一感がなかったので わかりやすい呼び名を考える事にしました。 できるだけ短い方が良いので Rubyによるクロー…
前回はWebサイトをクロールするところまで書いたので、 次は取得したページを解析して、必要な情報を抜き出します。 必要な情報を抜き出すには、 nokogiriというライブラリを使えばいいみたいです。 使い方は簡単で、 nokogiriライブラリを使えるようにする …
chapter2を進めていきましょう。 chapter2では、「Anemone」というライブラリを使って Amazonのウェブサイトから書籍のランキング情報を取得する クローラーを作っていくようです。 ちなみに、Anemoneってどういう意味?と思って 調べてみたら、植物の名前ぽ…
chapter1の続きを読み進めます。 chapter1では最終的に、 あるサイトのトピックス情報を取得し、 RSS配信するところまでやります。 完成するとこんな感じ 本通りに書き写しただけと言われればそこまでなんですが、 自分の手で書いたものが動くとちょっと感動…
本のChapter1から進めます。 Chapter1のタイトルは「10分クローラーの作成」となっています。 いきなり、ワクワクさせるタイトルです。 まずは写経するところから。 本通りに作っていきます。 10分では作れませんでした笑。 というのもRubyの各種メソッドに…
RubyWarriorを攻略してから はや5日。 次は何をやろうか考えてました。 何をやろうか考えてる時って こーゆー事したい。とか こんな事できたら面白そう。とか 色々考えて、夢(妄想)がふくらみますね。 この時間って本当楽しいです。 ただ、残念な事に自身の…