如何抓取 Hype Machine 等网站？

发布于 2024-09-12 04:00:35 字数 230 浏览 1 评论 0原文

我对网站抓取（即它是如何完成的等）很好奇，特别是我想编写一个脚本来执行网站的任务炒作机器。我实际上是一名软件工程本科生（四年级），但是我们并没有真正涵盖任何 Web 编程，因此我对 Javascript/RESTFul API/所有 Web 事物的理解非常有限，因为我们主要关注理论和客户端应用程序。非常感谢任何帮助或指示。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

离去的眼神 2024-09-19 04:00:35

首先要检查的是网站是否已经提供某种结构化数据，或者您是否需要自己解析 HTML。似乎有一个最新歌曲的 RSS feed。如果这就是您正在寻找的，那么最好从那里开始。

您可以使用脚本语言下载提要并对其进行解析。我使用 python，但如果您愿意，您可以选择不同的脚本语言。这里有一些关于如何在 python 中下载 url 和在 python 中解析 XML。

当您编写下载网站或 RSS 提要的程序时，需要注意的另一件事是抓取脚本的运行频率。如果您让它不断运行，以便在新数据可用时立即获取新数据，您将给网站带来大量负载，并且他们很可能会阻止您。尽量不要比需要的频率更频繁地运行脚本。

回复收藏 0 原文

携余温的黄昏 2024-09-19 04:00:35

您可能需要查看以下书籍：

“Webbots、Spiders 和 Screen Scrapers：使用 PHP/CURL 开发 Internet 代理指南”
http://www.amazon.com/Webbots-Spiders-Screen-Scrapers-Developing/ dp/1593271204

“C# 机器人的 HTTP 编程秘诀”
http://www.amazon.com/HTTP-Programming-Recipes-C-Bots/ dp/0977320677

“Java 机器人的 HTTP 编程秘诀”
http://www.amazon.com/HTTP-Programming-Recipes-Java-Bots/ dp/0977320669

回复收藏 0 原文

嘿看小鸭子会跑 2024-09-19 04:00:35

我认为你必须分析的最重要的事情是你想要提取哪种信息。如果您想像 google 一样提取整个网站，您最好的选择可能是分析 Apache.org 中的 nutch 等工具或 flappor 解决方案 http ://ww.houunder.org 如果您需要提取非结构化数据文档（网站、文档、pdf）上的特定区域，您可能可以扩展 nutch 插件来满足特定需求。 nutch.apache.org

另一方面，如果您需要提取使用页面 DOM 设置规则的网站的特定文本或剪切区域，则可能您需要检查的内容与 mozenda.com 等工具更相关。使用这些工具，您将能够设置提取规则，以便废弃网站上的特定信息。您必须考虑到网页上的任何更改都会给您的机器人带来错误。

最后，如果您计划使用信息源开发一个网站，您可以从 spinn3r.com 等公司购买信息，因为他们出售可供消费的特定领域的信息。您将能够在基础设施方面节省大量资金。
希望有帮助！
塞巴斯蒂安。

回复收藏 0 原文