如何“抓取”来自另一个网站的内容

发布于 2024-09-12 12:08:53 字数 255 浏览 6 评论 0原文

有朋友问过我这个问题，我无法回答。

他问道：我正在制作这个网站，您可以在其中存档您的网站......

它的工作原理是这样的，您输入您的网站，例如，something.com，然后我们的网站抓取该网站上的内容（例如图像）以及所有这些并将其上传到我们的网站。这样，即使支持something.com 的服务器已关闭，人们也可以在 oursite.com/something.com 上查看该网站的精确副本。

他怎么能这么做呢？（php？）有什么要求？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

旧时浪漫 2024-09-19 12:08:53

听起来您需要创建一个网络爬虫。网络爬虫可以用任何语言编写，但我建议使用 C++（使用 cURL）、Java（使用 URLConnection）或 Python（w/urrlib2）。您也可以使用curl或wget命令和BASH来快速破解某些东西，尽管这可能不是最好的长期解决方案。另外，不要忘记，当您抓取某人的网站时，如果存在“robots.txt”文件，您应该下载、解析并尊重该文件。

回复收藏 0 原文