当前位置：文江博客话题详情

hadoop web-crawler libraries

用于网站解析的库/工具

发布于 2024-09-18 13:21:30 字数 128 浏览 11 评论 0 原文

我想开始将大量原始 HTML 页面解析为语义数据结构。

只是对社区对此类任务的各种可用工具的意见感兴趣，特别是任何语言的各种有用的库。

到目前为止，计划使用 Hadoop 来管理大量处理，但对替代方案感到好奇。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

留蓝 2024-09-25 13:21:30

首先，您需要下载页面源代码，然后创建一个 DOM 树。
如果您使用 C# 进行编码，您可以使用以下工具来创建 DOM 树。

1) http://htmlagilitypack.codeplex.com/
2) http://www.majestic12.co.uk/projects/html_parser.php

第一个很容易使用，但第二个更快且内存友好，如果您想创建一个强大的应用程序，我建议您使用第二个，

然后您可以使用以下方法从网页中提取有用的内容：

http://www.chrisspen.com/blog/how -to-extract-a-webpages-main-article-content.html

和许多其他文章，您可以找到通过谷歌搜索从网页中提取内容（从网页中提取主要内容）

希望有帮助

回复收藏 0 原文

~没有更多了~

关于作者

远昼

暂无简介

0 文章

0 评论

24 人气

关注发私信

離殇

文章 0 评论 0

关注

小姐丶请自重

文章 0 评论 0

关注

Aik

文章 0 评论 0

关注

国产ˉ祖宗

文章 0 评论 0

关注

猥琐帝

文章 0 评论 0

关注

半仙

文章 0 评论 0

友情链接

文江博客

用于网站解析的库/工具

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

用于网站解析的库/工具

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。