如何使用 Ruby 抓取具有多个页面的网站并创建一个 html 页面？

发布于 2024-12-14 00:51:46 字数 660 浏览 1 评论 0原文

所以我想做的是抓取这个网站： http://boxerbiography.blogspot.com/ 并创建一个 HTML 页面，我可以打印该页面或将其发送到我的 Kindle。

我正在考虑使用 Hpricot，但不太确定如何继续。

我该如何设置它，以便它递归地检查每个链接，获取 HTML，将其存储在变量中或将其转储到 HTML 主页面，然后返回到目录并继续执行此操作？

您不必确切地告诉我如何去做，而只需告诉我我可能想要如何处理它背后的理论。

我是否真的必须查看其中一篇文章的来源（顺便说一句，这是极其难看的），例如查看来源：http://boxerbiography.blogspot.com/2006/12/10-progamer-lim-yohwan-e -sports-icon.html 并手动编写脚本以提取某些标签之间的文本（例如 h3、p 等）？

如果我采用这种方法，那么我将不得不查看每个章节/文章的每个单独来源，然后执行此操作。有点违背了编写脚本来做到这一点的目的，不是吗？

理想情况下，我想要一个脚本能够区分 JS 和其他代码之间的区别，并且只是“文本”并将其转储（使用正确的标题等进行格式化）。

非常感谢一些指导。

谢谢。

原文