哪个 java rdfa 解析器支持当前使用的 rdfa 属性?
我正在使用 Jena 构建一个 Java 应用程序来抓取语义信息。我正在寻找一个 RDFa 解析器,它可以让我正确提取所有 RDFa 语句。具体来说,提取有关所使用的命名空间的信息并假设页面中的 RDFa 标签正确会生成正确的三元组,即区分对象和数据属性的三元组。
我浏览了 http://rdfa.info/wiki/Consume 网站上针对 Java 的所有 RDFa 解析器。他们都在努力提取任何 RDFa 语句,如果它们没有崩溃,Jena RDFa 解析器会显示大量错误,然后惨死,数据几乎没有用处,因为它被错误地处理并且通常是混淆的。我是这个领域的新手,所以请温柔点:)
我也考虑过使用用不同语言编写的库,但我又不知道如何将它插入到 Java 代码中。有什么建议吗?
I am building an app in Java using Jena for semantic information scraping. I am looking for a RDFa parser that would allow me to correctly extract all the RDFa statements. Specifically, one that extracts info about namespaces used and presuming that RDFa tags are correct in the page produces correct triples, ones that distinguish between object and data properties.
I went through all RDFa parsers from the site http://rdfa.info/wiki/Consume for Java. They all struggle to extract any RDFa statements and if they do not crash, Jena RDFa parser shows plenty of errors and then dies a terrible death, the data is of little use as it is incorrectly processed and generally mixed up. I am newbie in this area so please be gentle:)
I was also thinking of using a library written in different language but then again I don't really know how to plug it into Java code. Any suggestions?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
大多数 RDFa 解析器都在处理无效的 HTML。 any23 库 包含一个可以处理无效 HTML 的 RDFa 解析器。它将任何 RDFa 解析为完整的 RDF,包括名称空间映射等,并且正在积极开发中。
Most RDFa parsers struggle with invalid HTML. The any23 library includes an RDFa parser that can deal with invalid HTML. It parses any RDFa into full RDF, including namespace mappings and so on, and is under active development.
使用 java-rdfa。它支持 jena,并使用 validator.nu html 5 解析器,它像解析 html 一样处理 html浏览器会这样做(即它将修复损坏的标记)。
Use java-rdfa. It supports jena, and uses the validator.nu html 5 parser, which handles parsing the html like a browser does (i.e. it will repair broken markup).