哪个 java rdfa 解析器支持当前使用的 rdfa 属性?

发布于 2024-08-30 16:40:33 字数 432 浏览 7 评论 0原文

我正在使用 Jena 构建一个 Java 应用程序来抓取语义信息。我正在寻找一个 RDFa 解析器,它可以让我正确提取所有 RDFa 语句。具体来说,提取有关所使用的命名空间的信息并假设页面中的 RDFa 标签正确会生成正确的三元组,即区分对象和数据属性的三元组。

我浏览了 http://rdfa.info/wiki/Consume 网站上针对 Java 的所有 RDFa 解析器。他们都在努力提取任何 RDFa 语句,如果它们没有崩溃,Jena RDFa 解析器会显示大量错误,然后惨死,数据几乎没有用处,因为它被错误地处理并且通常是混淆的。我是这个领域的新手,所以请温柔点:)

我也考虑过使用用不同语言编写的库,但我又不知道如何将它插入到 Java 代码中。有什么建议吗?

I am building an app in Java using Jena for semantic information scraping. I am looking for a RDFa parser that would allow me to correctly extract all the RDFa statements. Specifically, one that extracts info about namespaces used and presuming that RDFa tags are correct in the page produces correct triples, ones that distinguish between object and data properties.

I went through all RDFa parsers from the site http://rdfa.info/wiki/Consume for Java. They all struggle to extract any RDFa statements and if they do not crash, Jena RDFa parser shows plenty of errors and then dies a terrible death, the data is of little use as it is incorrectly processed and generally mixed up. I am newbie in this area so please be gentle:)

I was also thinking of using a library written in different language but then again I don't really know how to plug it into Java code. Any suggestions?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

遗心遗梦遗幸福 2024-09-06 16:40:33

大多数 RDFa 解析器都在处理无效的 HTML。 any23 库 包含一个可以处理无效 HTML 的 RDFa 解析器。它将任何 RDFa 解析为完整的 RDF,包括名称空间映射等,并且正在积极开发中。

Most RDFa parsers struggle with invalid HTML. The any23 library includes an RDFa parser that can deal with invalid HTML. It parses any RDFa into full RDF, including namespace mappings and so on, and is under active development.

戏剧牡丹亭 2024-09-06 16:40:33

使用 java-rdfa。它支持 jena,并使用 validator.nu html 5 解析器,它像解析 html 一样处理 html浏览器会这样做(即它将修复损坏的标记)。

Use java-rdfa. It supports jena, and uses the validator.nu html 5 parser, which handles parsing the html like a browser does (i.e. it will repair broken markup).

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文