用于网站解析的库/工具
我想开始将大量原始 HTML 页面解析为语义数据结构。
只是对社区对此类任务的各种可用工具的意见感兴趣,特别是任何语言的各种有用的库。
到目前为止,计划使用 Hadoop 来管理大量处理,但对替代方案感到好奇。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
我想开始将大量原始 HTML 页面解析为语义数据结构。
只是对社区对此类任务的各种可用工具的意见感兴趣,特别是任何语言的各种有用的库。
到目前为止,计划使用 Hadoop 来管理大量处理,但对替代方案感到好奇。
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(1)
首先,您需要下载页面源代码,然后创建一个 DOM 树。
如果您使用 C# 进行编码,您可以使用以下工具来创建 DOM 树。
1) http://htmlagilitypack.codeplex.com/
2) http://www.majestic12.co.uk/projects/html_parser.php
第一个很容易使用,但第二个更快且内存友好,如果您想创建一个强大的应用程序,我建议您使用第二个,
然后您可以使用以下方法从网页中提取有用的内容:
http://www.chrisspen.com/blog/how -to-extract-a-webpages-main-article-content.html
和许多其他文章,您可以找到通过谷歌搜索从网页中提取内容(从网页中提取主要内容)
希望有帮助
First you need to download your page source and then create a DOM tree.
if you are coding in C# you can user the following tools to create your DOM tree.
1) http://htmlagilitypack.codeplex.com/
2) http://www.majestic12.co.uk/projects/html_parser.php
the first one is easy to use but second one is much faster and memory friendly and I suggest you to use the second one if you want to create a robust application
then you can extract usefull content from web page using:
http://www.chrisspen.com/blog/how-to-extract-a-webpages-main-article-content.html
and many other articles you can find to extract content from web page by Googling (extract main content from web page)
Hope it helps