当前位置：文江博客话题详情

识别分层数据中的模式或结构

发布于 2024-10-15 15:12:48 字数 557 浏览 4 评论 0原文

我的问题是“检测分层或树模式的最佳技术是什么？”

我想识别 HTML 页面中的部分，例如：用户登录菜单，或导航菜单，或内容正文，页脚等。

我正在尝试使用我实现的语法识别（我不喜欢像 Lex、yacc 这样的经典语言）这项工作，因为他们不关心 HTML 数据意义）与 php 并使用 DOM 解析器进行 HTML 遍历（DOMDocument）。

我遇到了麻烦，因为在 html 中直观地表示数据的方式存在差异。例如，可以使用

Link1
Link2....

，但数百种可能性中只有一种。它还取决于 CSS 事件（onclick、onmousehover）。而且从假菜单中识别真菜单也存在问题。

我正在考虑神经训练，但在所有示例中我发现它们适用于线性数据，而不是分层数据。我尝试训练一些网络，但很明显它们丢失了 DOM 树元素之间的关系信息。或者也许我不知道如何让它变得更好。

我的模式识别语法的结果很差，因为它不接受html中可能的“意外”，也不平滑识别，它太严格（而不是模糊）。

有什么想法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

冷血 2024-10-22 15:12:48

一种可能的方法是拥有许多（10-20）个不同的正则表达式或其他检测方法的数组，并查看其中有多少符合条件，根据每个正确的频率对它们进行加权，并将其与一个值进行比较。或者，如果您喜欢的话，您可以采取总正确率并使用神经网络进行选择。

回复收藏 0 原文

~没有更多了~

关于作者

初心

暂无简介

0 文章

0 评论

22 人气

关注发私信

友情链接

文江博客

识别分层数据中的模式或结构

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

留蓝

18790681156

zach7772

Wini

ayeshaaroy

初雪

友情链接

识别分层数据中的模式或结构

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

留蓝

18790681156

zach7772

Wini

ayeshaaroy

初雪

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。