Rubyによるクローラー開発技法 vol6 ~自動巡回とページの取得~

今回は、
chapter2のリンク抽出機能を勉強していきます。

やる事は

ヤフーのトップページを開く
ページ内のAタグを抽出する
Aタグのhref属性からURLを取得する
取得したURLを使ってページ遷移を行う
スクリーンショットを撮って保存する

です。

とりあえず、クロ本の通りに書き写して
上手くいかないところを修正して動くようになりました。

どこが上手くいかなかったかというと、

クロ本には
抽出したURLがターゲットのホスト名と一致した場合のみ
つまりwww.yahoo.co.jpと一致した場合のみ
スクリーンショットを撮る
と書いてあるのですが、
ヤフーのサイトが変わったせいか、
取得するURLがすべてrdsig.yahoo.co.jpになってて
ホスト名と１件も一致しなくなっていました。

やっぱりWebサイトって結構頻繁に変わるんですね。
　
　
何はともあれ、上手く動くようになったんですが、
保存したスクリーンショットがAtomでプレビューできない。
サイズが大きいと駄目なのかな？
また今度調べます。
　
とりあえず、クロ本のchapter2を今回で終わりにしようと思います。
クロ本にはブログで書いた事以外に