如何以编程方式保存网页?
我想以编程方式保存网页。
我的意思不仅仅是保存 HTML。我还希望自动存储所有关联的文件(图像、CSS 文件、可能嵌入的 SWF 等),并希望重写本地浏览的链接。
预期用途是个人书签应用程序,其中缓存链接内容,以防原始副本被删除。
I would like to save a web page programmatically.
I don't mean merely save the HTML. I would also like automatically to store all associated files (images, CSS files, maybe embedded SWF, etc), and hopefully rewrite the links for local browsing.
The intended usage is a personal bookmarks application, in which link content is cached in case the original copy is taken down.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
看一下 wget,特别是 -p 标志
以下命令:
将下载 page.html以及它需要的所有文件。
Take a look at wget, specifically the -p flag
The following command:
Will download page.html and all files it requires.
在 Windows 上:您可以将 IE 作为 com 对象运行并提取所有内容。
另一方面,您可以获取 Mozilla 的源代码。
在 Java 中,Lobo。
或者commons-httpclient,写很多代码。
On Windows: you can run IE as a com object and pull everything out.
On other thing, you can take the source of Mozilla.
In Java, Lobo.
Or commons-httpclient and write a lot of code.
您可以尝试 MHTML 格式(IE 使用的格式)。 http://en.wikipedia.org/wiki/MHTML
换句话说,您将每个对象(图像、CSS 等)下载到您的计算机,然后通过 Base64 将它们“嵌入”到单个文件中。
You could try the MHTML format (which is what IE uses). http://en.wikipedia.org/wiki/MHTML
In other words, you'd be downloading each object (image, css, etc.) to your computer, and then "embedding" them, via Base64, into a single file.