对网页进行逆向工程
我希望将任何网页逆向工程为页面的逻辑表示。 例如,如果网页有一个菜单,那么我想要一个可能采用 XML 格式的逻辑菜单结构。如果网页有一篇文章,我需要一个文章 XML 节点,如果它有文章的标题,我需要一个标题 XML 节点。基本上,我想要没有任何用户界面的网页的逻辑形式。
这个逻辑模型可以是代码中的对象,也可以是 XML,这并不重要,重要的是它已经确定了页面上所有内容的含义。
I wish to reverse engineer any web-page into a logical representation of the page.
For example, if a web page has a menu, then I want a logical menu structure perhaps in XML. If the webpage has an article, I want a article XML node, if it has a title for the article I want a title XML node. Basically, I want the logical form of the web-page without any of the user interface.
This logical model could either be objects in code or XML it doesn't matter, the important part is that it has identified what everything on the page means.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
听起来你想要的东西需要人类对页面内容进行分类。
这可以是自动化的,但它会出现误报,并且并非在所有情况下都有效。
例如,如果一个页面使用
ul
作为菜单,而另一个页面使用表格单元格怎么办?您是否希望针对某个特定网站或 Internet 上的任何网站进行此操作?
Sounds like what you want requires a human to categorise a page's contents.
This could be automated, however it would have false positives and not work in every case.
For example, what if one page used a
ul
for a menu and another one used table cells?Do you want this for one site in particular, or any site on the Internet?
如何解析页面上已有的 XML,请参阅
http://en.wikipedia.org/wiki/XHTML
How about parsing the XML already on the page, see
http://en.wikipedia.org/wiki/XHTML