Rails rake 任务在运行时不断消耗更多 RAM（使用 mechanize 抓取网站）

发布于 2025-01-03 01:44:07 字数 907 浏览 1 评论 0原文

我使用 mechanize gem 来抓取网站。我在 Rails rake 任务中编写了一个非常简单的单线程爬虫，因为我需要访问 Rails 模型。

爬虫运行得很好，但在观察它运行一段时间后，我发现它随着时间的推移消耗了越来越多的 RAM，这很糟糕。

我用God gem来监控我的爬虫。

下面是我的 rake 任务代码，我想知道它是否会暴露内存泄漏的可能性？

task :abc => :environment do
  prefix_url = 'http://example.com/abc-'
  postfix_url = '.html'
  from_page_id = (AppConfig.last_crawled_id || 1) + 1
  to_page_id = 100000

  agent = Mechanize.new
  agent.user_agent_alias = 'Mac Safari'

  (from_page_id..to_page_id).each do |i|
    url = "#{prefix_url}#{i}#{postfix_url}"
    puts "#{Time.now} - Crawl #{url}"
    page = agent.get(url)

    page.search('#content > ul').each do |s|
      var = s.css('li')[0].text()
      value = s.css('li')[1].text()
      MyModel.create :var => var, :value => value
    end

    AppConfig.last_crawled_id = i
  end
  # Finish crawling, let's stop
  `god stop crawl_abc`
end

原文

I use mechanize gem to crawl websites. I wrote a very simple, one-threaded crawler inside a Rails rake task because I needed to access to Rails models.

The crawler runs just fine, but after watching it running for a while I can see that it eats more and more RAM over time, which is bad.

I use God gem to monitor my crawler.

Below is my rake task code, I'm wondering if it exposes any chance of memory leaking?

task :abc => :environment do
  prefix_url = 'http://example.com/abc-'
  postfix_url = '.html'
  from_page_id = (AppConfig.last_crawled_id || 1) + 1
  to_page_id = 100000

  agent = Mechanize.new
  agent.user_agent_alias = 'Mac Safari'

  (from_page_id..to_page_id).each do |i|
    url = "#{prefix_url}#{i}#{postfix_url}"
    puts "#{Time.now} - Crawl #{url}"
    page = agent.get(url)

    page.search('#content > ul').each do |s|
      var = s.css('li')[0].text()
      value = s.css('li')[1].text()
      MyModel.create :var => var, :value => value
    end

    AppConfig.last_crawled_id = i
  end
  # Finish crawling, let's stop
  `god stop crawl_abc`
end

分享到QQ

分享到微博