当前位置：文江博客话题详情

在毫无头绪的情况下解析和分割多个 HTML 页面

发布于 2024-12-26 03:50:08 字数 363 浏览 5 评论 0原文

我有大约 50 个与我的项目相关的原始 HTML 页面内容。我不确定这些内容是否有独特的模式。

我需要解析所有页面的内容，并且必须根据关键字进行分类。

关键字都像这样

'REVIEWS',"REPORTS","FEEDBACK","DESCRIPTION","COMMENTS","SUCCESS RATES","FAILURE RATES"

抓取的 HTML 内容必须进行分类，并且 < strong>映射到相关关键字。

还需要从页面中拆分内容和标题以进行比较，

我使用的是 Python。

您能建议这样做的方法吗？哪个适合选择？这个想法必须如何组织？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

月光色 2025-01-02 03:50:08

这是一个典型的分类问题。您可以使用贝叶斯分类器来识别页面属于哪个类别。这将使您能够轻松扩展您所关注的网站。

查看
http://www.python-course.eu/text_classification_introduction.php

一般介绍。我真正推荐的是 O'Reilly 出版的一本名为“集体智慧编程”的书，书中的示例是用 Python 编写的，并且有一章专门介绍您想要做的事情。它们没有涉及重要的细节，但足以让您启动并运行。

如果您只是想探索如何识别页面等。请尝试 Weka，这是一个基于 Java 的工具。显然这不符合你的 python 要求，所以如果你对一般领域感兴趣，我建议它更多地作为学习工具。

回复收藏 0 原文

扭转时空 2025-01-02 03:50:08

如果你需要根据页面内容进行分类，我建议你看看NLTK（http://www.nltk.org/），这是一个开源Python模块的自然语言工具包。

不要只是尝试查看页面中出现的“报告”等内容。报告的标题或内容中可能有也可能没有“报告”。您可以使用 NLTK 查找与您的关键字相关的术语（例如成功率与批准率），或来自同一族的术语（例如描述与描述）。

查看页面的内容并尝试定义它们与其他页面的区别。例如，带有评论的页面可能会包含“我认为”、“在我看来”等表达方式和主观术语，通常是形容词和副词，如“好”、“很快”、“可怕”等。里面不太可能有这样的词。

除了内容之外，页面的结构也可能因类别而异。如果您打算对此进行分析，也许使用 Beautiful Soup (http://www.crummy.com/software/BeautifulSoup/) 进行解析是一个好主意。

回复收藏 0 原文

~没有更多了~

关于作者

无言温柔

暂无简介

文章

27 人气

关注发私信

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

在毫无头绪的情况下解析和分割多个 HTML 页面

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

櫻之舞