爬虫爬到的内容和浏览器看到的不一样

编程那点事

今天写了个爬虫,用来爬ruby-china上帖子的标题

require 'nokogiri'
require 'rest-client'
def get_title input
  begin
    if 0 == input.to_i
      res = RestClient.get input
    else
      res = RestClient.get "https://ruby-china.org/topics?page=#{input}"
    end
  rescue
    p "invalid url"
    return
  end
  doc = Nokogiri::HTML res.body
  doc.css('.title a').each do |i|
    p i.attributes['title'].value
  end
  p '-' * 100
end
puts 'Please input url, and enter "e" to exit.'
while 'e' != input = gets.chomp!
  get_title input
end

但是发现浏览器看到的东西,好像比爬虫爬到的少一些。

思来想去,不得其解,于是ruby-china发贴一篇,最后管理员一语惊醒梦中人。

总结:下次发生这种事情,记得登出或者浏览器无痕模式看看....

发表于 2018.08.15