解析 XML 和 HTML 文档的兼容层?
我正在为 Java 中的餐馆菜单制作一个聚合器。我正在寻找提取以各种方式格式化的文档内容的最佳方法:一些餐厅提供 RSS 提要,其他餐厅提供 HTML 表格,对于其他餐厅,您必须编译显示在多个页面上的结果......
我是什么我正在寻找一种描述从源文档到易于解析的格式所需的转换的方法。当然,这种转换必须针对每个数据源进行不同的定制,但这不是问题。
我知道我可以为每家餐厅编写一个 Java 适配器,但我正在寻找一个更简单、更标准的解决方案。基本上类似于 XSLT,但更灵活。
有什么想法吗?感谢您的帮助。
I'm making an aggregator for restaurants menus in Java. I'm looking for the best way to extract the content of documents formatted in various ways: some restaurants provide an RSS feed, others provide an HTML table, for others you have to compile the result displayed on multiple pages...
What I'm looking for, is a way to describe the transformation necessary to go from the source document to an easily-parsable format. Of course this transformation will have to be different and custom-made for every data source, but that's not a problem.
I know I could write a Java adapter for each restaurant, but I'm looking for a simpler, more standard solution. Basically something like XSLT but more flexible.
Any idea? Thanks for your help.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
XSLT 2.0(简单、标准且比 XSLT 1.0 更灵活)
XSLT 2.0 ( simple, standard and more flexible than XSLT 1.0 )