Rubyによるクローラー開発技法 vol6 ~自動巡回とページの取得~

今回は、
chapter2のリンク抽出機能を勉強していきます。

やる事は

  1. ヤフーのトップページを開く
  2. ページ内のAタグを抽出する
  3. Aタグのhref属性からURLを取得する
  4. 取得したURLを使ってページ遷移を行う
  5. スクリーンショットを撮って保存する

です。

とりあえず、クロ本の通りに書き写して
上手くいかないところを修正して動くようになりました。

どこが上手くいかなかったかというと、

クロ本には
抽出したURLがターゲットのホスト名と一致した場合のみ
つまりwww.yahoo.co.jpと一致した場合のみ
スクリーンショットを撮る
と書いてあるのですが、
ヤフーのサイトが変わったせいか、
取得するURLがすべてrdsig.yahoo.co.jpになってて
ホスト名と1件も一致しなくなっていました。

やっぱりWebサイトって結構頻繁に変わるんですね。
 
 
何はともあれ、上手く動くようになったんですが、
保存したスクリーンショットAtomでプレビューできない。
サイズが大きいと駄目なのかな?
また今度調べます。
 
とりあえず、クロ本のchapter2を今回で終わりにしようと思います。
クロ本にはブログで書いた事以外に

についても書かれてますので、気になる方は読んでみてください。
今回はこの辺で。
 
 

Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例

Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例