对网页进行逆向工程

发布于 2024-09-03 15:52:35 字数 203 浏览 5 评论 0原文

我希望将任何网页逆向工程为页面的逻辑表示。 例如,如果网页有一个菜单,那么我想要一个可能采用 XML 格式的逻辑菜单结构。如果网页有一篇文章,我需要一个文章 XML 节点,如果它有文章的标题,我需要一个标题 XML 节点。基本上,我想要没有任何用户界面的网页的逻辑形式。

这个逻辑模型可以是代码中的对象,也可以是 XML,这并不重要,重要的是它已经确定了页面上所有内容的含义。

I wish to reverse engineer any web-page into a logical representation of the page.
For example, if a web page has a menu, then I want a logical menu structure perhaps in XML. If the webpage has an article, I want a article XML node, if it has a title for the article I want a title XML node. Basically, I want the logical form of the web-page without any of the user interface.

This logical model could either be objects in code or XML it doesn't matter, the important part is that it has identified what everything on the page means.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

萝莉病 2024-09-10 15:52:35

听起来你想要的东西需要人类对页面内容进行分类。

这可以是自动化的,但它会出现误报,并且并非在所有情况下都有效。

例如,如果一个页面使用 ul 作为菜单,而另一个页面使用表格单元格怎么办?

您是否希望针对某个特定网站或 Internet 上的任何网站进行此操作?

Sounds like what you want requires a human to categorise a page's contents.

This could be automated, however it would have false positives and not work in every case.

For example, what if one page used a ul for a menu and another one used table cells?

Do you want this for one site in particular, or any site on the Internet?

虫児飞 2024-09-10 15:52:35

如何解析页面上已有的 XML,请参阅

http://en.wikipedia.org/wiki/XHTML

How about parsing the XML already on the page, see

http://en.wikipedia.org/wiki/XHTML

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文