anemone 忽略包含特定短语的 url 链接

发布于 2024-12-02 21:51:37 字数 144 浏览 0 评论 0原文

我正在 ruby​​ 上运行带有 anemone 的网络抓取工具,当服务器访问需要登录的页面时,我给服务器带来了一些问题。

这些页面的网址中都有一个短语,例如“帐户”,我希望程序完全忽略并且不转到包含该字符串的目的地的任何链接。

我该怎么做?

I am running a web scraper with anemone on ruby and I am giving my server some problems when it visits pages that require a logon.

The pages all have a phrase, say, "account" in the url and I want the program to completely ignore and not go to any link with a destination containing this string.

How can I do this?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

满身野味 2024-12-09 21:51:37

Anemone 有一个 skip_links_like 方法

skip_links_like(*patterns)
为不应遵循的 URL 添加一个或多个正则表达式模式

因此添加类似的内容

skip_links_like /\/account\//

应该可以解决它:

Anemone.crawl("somesite.co.uk", :depth_limit => 1) do |anemone|
    anemone.skip_links_like /\/account\//
    #...
end

Anemone has a skip_links_like method:

skip_links_like(*patterns)
Add one ore more Regex patterns for URLs which should not be followed

So adding something like

skip_links_like /\/account\//

should take care of it:

Anemone.crawl("somesite.co.uk", :depth_limit => 1) do |anemone|
    anemone.skip_links_like /\/account\//
    #...
end
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文