当前位置：文江博客话题详情

xpath RapidMiner web-scraping data-mining

Rapidminer 可以从 URL 列表中提取 xpath，而不是先保存 HTML 页面吗？

发布于 2024-12-29 09:08:02 字数 673 浏览 2 评论 0 原文

我最近发现了 RapidMiner，我对它的功能感到非常兴奋。但是我仍然不确定该程序是否可以帮助我满足我的特定需求。我希望程序从我用另一个程序生成的 URL 列表中抓取 xpath 匹配项。（它比 RapidMiner 中的“爬行网络”运算符有更多选项）

我已经看过 Neil Mcguigan 的以下教程：http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html。但我尝试抓取的网站有数千个页面，我不想将它们全部存储在我的电脑上。而且网络爬虫缺乏关键功能，因此我无法将其用于我的目的。有没有办法让它读取 URL，并从每个 URL 中抓取 xpath？

我还研究了其他从页面中提取 html 的工具，但由于我不是程序员，所以我无法弄清楚它们是如何工作（甚至安装）的。另一方面，Rapidminer 很容易安装，操作员的描述很有意义，但我无法以正确的顺序连接它们。

我需要一些投入来保持动力。我想知道我可以使用什么运算符来代替“从文件处理文档”。我看过“处理来自网络的文档”，但它没有输入，并且仍然需要爬行。非常感谢任何帮助。

期待您的回复。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

小清晰的声音 2025-01-05 09:08:02

使用 RapidMiner 进行网页抓取而不在内部保存 html 页面的过程分为两步：

第 1 步按照 http://vancouverdata.blogspot.com/2011/04/rapidminer-web-crawling-rapid-miner-web.html，作者：Neil McGuigan，有以下区别：

而不是 Crawl Web< /em> 操作员使用处理来自 Web 的文档
操作员。不会有指定输出的选项
目录，因为结果将被加载到ExampleSet中。

ExampleSet 将包含与抓取规则匹配的链接。

处理来自 Web main 的文档

第 2 步 按照 http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html 但仅从 7:40 开始，有以下区别：

将 从 Web 处理文档内的>提取信息子流程。

ExampleSet 将包含与 XPath 查询匹配的链接和属性。

提取信息子

回复收藏 0 原文

北座城市 2025-01-05 09:08:02

我和你有同样的问题，也许来自 RapidMiner 论坛的这些帖子会对你有所帮助：
http://rapid-i.com/rapidforum/index.php/topic ,2753.0.html
和
http://rapid-i.com/rapidforum/index.php?topic =3851.0.html

再见；）

回复收藏 0 原文

~没有更多了~

关于作者

椒妓

暂无简介

文章

评论

26 人气

关注发私信

相关话题

更多

推荐作者

关注

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

更多

友情链接

文江博客

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文