编程那点事
今天写了个爬虫,用来爬ruby-china上帖子的标题
require 'nokogiri'
require 'rest-client'
def get_title input
begin
if 0 == input.to_i
res = RestClient.get input
else
res = RestClient.get "https://ruby-china.org/topics?page=#{input}"
end
rescue
p "invalid url"
return
end
doc = Nokogiri::HTML res.body
doc.css('.title a').each do |i|
p i.attributes['title'].value
end
p '-' * 100
end
puts 'Please input url, and enter "e" to exit.'
while 'e' != input = gets.chomp!
get_title input
end
但是发现浏览器看到的东西,好像比爬虫爬到的少一些。
思来想去,不得其解,于是ruby-china发贴一篇,最后管理员一语惊醒梦中人。
总结:下次发生这种事情,记得登出或者浏览器无痕模式看看....
发表于 2018.08.15
© 自由转载 - 非商用 - 非衍生 - 保持署名