Rubyによるクローラー開発技法 vol6 ~自動巡回とページの取得~
今回は、
chapter2のリンク抽出機能を勉強していきます。
やる事は
- ヤフーのトップページを開く
- ページ内のAタグを抽出する
- Aタグのhref属性からURLを取得する
- 取得したURLを使ってページ遷移を行う
- スクリーンショットを撮って保存する
です。
とりあえず、クロ本の通りに書き写して
上手くいかないところを修正して動くようになりました。
どこが上手くいかなかったかというと、
クロ本には
抽出したURLがターゲットのホスト名と一致した場合のみ
つまりwww.yahoo.co.jp
と一致した場合のみ
スクリーンショットを撮る
と書いてあるのですが、
ヤフーのサイトが変わったせいか、
取得するURLがすべてrdsig.yahoo.co.jp
になってて
ホスト名と1件も一致しなくなっていました。
やっぱりWebサイトって結構頻繁に変わるんですね。
何はともあれ、上手く動くようになったんですが、
保存したスクリーンショットがAtomでプレビューできない。
サイズが大きいと駄目なのかな?
また今度調べます。
とりあえず、クロ本のchapter2を今回で終わりにしようと思います。
クロ本にはブログで書いた事以外に
- autopagerize-rubyというGemを使ってページ送りするための方法
- robots.txtへの対応
についても書かれてますので、気になる方は読んでみてください。
今回はこの辺で。
Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例
- 作者: るびきち,佐々木拓郎
- 出版社/メーカー: SBクリエイティブ
- 発売日: 2014/08/25
- メディア: 大型本
- この商品を含むブログ (8件) を見る