从维基百科信息框获取所有属性(java)

发布于 2024-12-20 10:08:34 字数 227 浏览 2 评论 0原文

我希望从维基百科页面获取所有信息框属性和值(仅包含信息框的页面)。 使用简单的 WebRequest 解析信息框会给我带来太多垃圾。因此,我考虑使用 dbpedia 并使用 Jena (SPARQL) 获取数据。 我怎样才能做到这一点?是否有一个简单的查询可以将所有属性作为键值对提供?或者RDF,然后将其转换为我需要的。

I'm looking to get all infobox properties and values from Wikipedia pages (only ones that contain infobox).
Parsing the infobox using a simple WebRequest will give me too much junk. Therefore, I considering using dbpedia and getting the data using Jena (SPARQL).
How can I do that? is there a simple query that will give me all properties as key value pairs? Or RDF and then convert it to what I need.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

梦醒灬来后我 2024-12-27 10:08:34

dbpedia 有一个公共 SPARQL 端点,位于 http://dbpedia.org/sparql,您可以使用它
实验。有用于构建查询的示例和各种其他工具,请参见 http://wiki.dbpedia.org/OnlineAccess。您还可以下载数据集以在本地尝试查询。

澄清一下,RDF 是 dbpedia 发布的数据格式。SPARQL 是用于查询 RDF 的查询语言。 Jena 是一个特定的实现,包括 RDF 数据存储和 SPARQL 引擎。

There is a public SPARQL endpoint to dbpedia at http://dbpedia.org/sparql which you can use to
experiment. There are examples and various other tools for building queries, described at http://wiki.dbpedia.org/OnlineAccess. You can also download datasets to try queries locally.

Just to clarify, RDF is the data format that dbpedia is published in. SPARQL is the query language for querying RDF. Jena is a specific implementation that inclues RDF datastore(s) and a SPARQL engine.

韬韬不绝 2024-12-27 10:08:34

尝试使用 http://wiki.dbpedia.org/Downloads37 中的转储。
例如“原始信息框属性”。

Try to use dumps from http://wiki.dbpedia.org/Downloads37.
For example "Raw Infobox Properties".

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文