第 3 页 - web-crawler

投稿关注

web-crawler

文章 0 浏览 4

Python：避免在爬行时下载未更改页面的最佳算法

我正在编写一个爬虫，它定期检查新闻网站列表中的新文章。我读过有关避免不必要的页面下载的不同方法，基本上确定了 5 个标头元素，可用于确定页面是…

我不会写诗 2024-12-07 02:00:03 1 0

使用一个搜索字符串搜索 4 个网站目录

我经常去很多图书馆。布鲁克林公共图书馆、皇后区公共图书馆、纽约公共图书馆和纽约市立大学学校图书馆。当我想要一本书时，我必须访问所有 4 个在线…

凹づ凸ル 2024-12-06 20:42:28 1 0

HTML 混合编码？

首先，我想对您提前提供的帮助表示感谢。我目前正在编写一个网络爬虫，它可以解析 HTML 内容，剥离 HTML 标签，然后对从解析中检索到的文本进行拼写…

酷炫老祖宗 2024-12-06 20:31:07 1 0

mongoid 自我与自我的关系？

大家好，我有一个像下面这样的爬虫模型类： class Link include Mongoid::Document include Mongoid::Timestamps field :url, type: String field :li…

毁虫ゝ 2024-12-05 23:49:52 1 0

SEO：动态生成的链接可以被抓取吗？

我有一个包含标记的页面，其中包含 onclick="" 代码，该代码调用 ajax 请求来获取 json 数据，然后迭代结果以形成链接 () 附加到页面。这些链接不存…

兔小萌 2024-12-05 19:13:58 2 0

如何通过Google搜索抓取特定域的链接？

我有一个印度歌曲的歌词语料库，需要用发行年份来标记它们，以进行我正在进行的实验。有一个网站（lyricsindia.net），其中有这些歌词的详尽数据库，…

懒猫 2024-12-05 18:15:10 2 0

爬取页面时，如何从 获取完整URL或<帧源>属性

我实际上使用的是 PHP，但是任何编程语言都可以完成这种爬行。要满足很多情况会有点困难。请帮我解决这个问题，并请给我一些建议，看看我的方向是否正…

长伴 2024-12-05 12:44:13 1 0

使用crawler4j。如何保存网站数据？

我已经开始使用crawler4j，它似乎可以毫无问题地查找网站。然而，我需要保存爬取的数据。 crawler4j支持这个功能吗？我尝试过使用高级java源代码（和…

握住你手 2024-12-05 10:14:00 1 0

避免抓取重复产品的建议

我编写了一个非常基本的爬虫，它从网站上抓取产品信息并将其放入数据库中。除了某些站点似乎对页面的多个部分有不同的 URL 之外，一切都运行良好。例…

遇到 2024-12-05 10:08:14 1 0

在没有 robots.txt 的情况下，哪些规则适用？

搜索引擎不应该抓取没有 robots.txt 的网站吗？编辑1：如果连 robots 元标记都不存在怎么办？我正在尝试确定这里涉及的合法性。就是这样。…

天邊彩虹 2024-12-05 07:19:41 1 0

在 JavaScript 中模拟人类点击

我有一个小刮刀，我需要使用 JavaScript 单击锚链接。我尝试了几种方法：jQuery.click()、document.createEvent('MouseEvents')等。它们都有效，但并…

孤独患者 2024-12-04 20:57:09 1 0

调用 webrequest 或 webclient 时必须发送哪个 HTTP 标头？

我正在创建一个网络机器人。通常，http 工具会返回相当多的信息，其中一些是只读的（例如 Connect: keep-alive）。如何知道需要哪些？ Accept: text/h…

独自唱情﹋歌 2024-12-04 17:30:59 2 0

从 nutch 中获取链接

我正在使用 nutch 1.3 来抓取网站。我想要获取已爬网的网址列表以及源自页面的网址。我使用 readdb 命令获取爬网的网址列表。 bin/nutch readdb craw…

_失温 2024-12-04 10:04:47 1 0

同时在 python 中运行多个线程 - 这可能吗？

我正在编写一个小爬虫，它应该多次获取 URL，我希望所有线程同时运行。我写了一小段代码应该可以做到这一点。 import thread from urllib2 import Re…

过期情话 2024-12-04 07:04:06 0 0

Nutch 抓取错误 - 输入路径不存在

我有 2 个 datanode 服务器的 nutch/hadoop 设置。我尝试抓取一些网址，但 nutch 失败并出现以下错误： Fetcher: segment: crawl/segments Fetcher: o…

盛夏已如深秋| 2024-12-03 22:00:02 0 0

共 45 页
上一页
1
2
3
4
5
下一页

友情链接

文江博客

web-crawler

Python：避免在爬行时下载未更改页面的最佳算法

使用一个搜索字符串搜索 4 个网站目录

HTML 混合编码？

mongoid 自我与自我的关系？

SEO：动态生成的链接可以被抓取吗？

如何通过Google搜索抓取特定域的链接？

爬取页面时，如何从 获取完整URL或<帧源>属性

使用crawler4j。如何保存网站数据？

避免抓取重复产品的建议

在没有 robots.txt 的情况下，哪些规则适用？

在 JavaScript 中模拟人类点击

调用 webrequest 或 webclient 时必须发送哪个 HTTP 标头？

从 nutch 中获取链接

同时在 python 中运行多个线程 - 这可能吗？

Nutch 抓取错误 - 输入路径不存在

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接