web-crawler

web-crawler

文章 0 浏览 4

Python:避免在爬行时下载未更改页面的最佳算法

我正在编写一个爬虫,它定期检查新闻网站列表中的新文章。 我读过有关避免不必要的页面下载的不同方法,基本上确定了 5 个标头元素,可用于确定页面是…

我不会写诗 2024-12-07 02:00:03 1 0

使用一个搜索字符串搜索 4 个网站目录

我经常去很多图书馆。布鲁克林公共图书馆、皇后区公共图书馆、纽约公共图书馆和纽约市立大学学校图书馆。当我想要一本书时,我必须访问所有 4 个在线…

凹づ凸ル 2024-12-06 20:42:28 1 0

HTML 混合编码?

首先,我想对您提前提供的帮助表示感谢。 我目前正在编写一个网络爬虫,它可以解析 HTML 内容,剥离 HTML 标签,然后对从解析中检索到的文本进行拼写…

酷炫老祖宗 2024-12-06 20:31:07 1 0

mongoid 自我与自我的关系?

大家好,我有一个像下面这样的爬虫模型类: class Link include Mongoid::Document include Mongoid::Timestamps field :url, type: String field :li…

毁虫ゝ 2024-12-05 23:49:52 1 0

SEO:动态生成的链接可以被抓取吗?

我有一个包含 标记的页面,其中包含 onclick="" 代码,该代码调用 ajax 请求来获取 json 数据,然后迭代结果以形成链接 () 附加到页面。这些链接不存…

兔小萌 2024-12-05 19:13:58 2 0

如何通过Google搜索抓取特定域的链接?

我有一个印度歌曲的歌词语料库,需要用发行年份来标记它们,以进行我正在进行的实验。 有一个网站(lyricsindia.net),其中有这些歌词的详尽数据库,…

懒猫 2024-12-05 18:15:10 2 0

爬取页面时,如何从获取完整URL或<帧源>属性

我实际上使用的是 PHP,但是任何编程语言都可以完成这种爬行。要满足很多情况会有点困难。请帮我解决这个问题,并请给我一些建议,看看我的方向是否正…

长伴 2024-12-05 12:44:13 1 0

使用crawler4j。如何保存网站数据?

我已经开始使用crawler4j,它似乎可以毫无问题地查找网站。然而,我需要保存爬取的数据。 crawler4j支持这个功能吗? 我尝试过使用高级java源代码(和…

握住你手 2024-12-05 10:14:00 1 0

避免抓取重复产品的建议

我编写了一个非常基本的爬虫,它从网站上抓取产品信息并将其放入数据库中。 除了某些站点似乎对页面的多个部分有不同的 URL 之外,一切都运行良好。例…

遇到 2024-12-05 10:08:14 1 0

在没有 robots.txt 的情况下,哪些规则适用?

搜索引擎不应该抓取没有 robots.txt 的网站吗? 编辑1: 如果连 robots 元标记都不存在怎么办?我正在尝试确定这里涉及的合法性。就是这样。…

天邊彩虹 2024-12-05 07:19:41 1 0

在 JavaScript 中模拟人类点击

我有一个小刮刀,我需要使用 JavaScript 单击锚链接。我尝试了几种方法:jQuery.click()、document.createEvent('MouseEvents')等。它们都有效,但并…

孤独患者 2024-12-04 20:57:09 1 0

调用 webrequest 或 webclient 时必须发送哪个 HTTP 标头?

我正在创建一个网络机器人。通常,http 工具会返回相当多的信息,其中一些是只读的(例如 Connect: keep-alive)。如何知道需要哪些? Accept: text/h…

独自唱情﹋歌 2024-12-04 17:30:59 2 0

从 nutch 中获取链接

我正在使用 nutch 1.3 来抓取网站。我想要获取已爬网的网址列表以及源自页面的网址。 我使用 readdb 命令获取爬网的网址列表。 bin/nutch readdb craw…

_失温 2024-12-04 10:04:47 1 0

同时在 python 中运行多个线程 - 这可能吗?

我正在编写一个小爬虫,它应该多次获取 URL,我希望所有线程同时运行。 我写了一小段代码应该可以做到这一点。 import thread from urllib2 import Re…

过期情话 2024-12-04 07:04:06 0 0

Nutch 抓取错误 - 输入路径不存在

我有 2 个 datanode 服务器的 nutch/hadoop 设置。我尝试抓取一些网址,但 nutch 失败并出现以下错误: Fetcher: segment: crawl/segments Fetcher: o…

盛夏已如深秋| 2024-12-03 22:00:02 0 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文