从维基百科信息框获取所有属性(java)
我希望从维基百科页面获取所有信息框属性和值(仅包含信息框的页面)。 使用简单的 WebRequest 解析信息框会给我带来太多垃圾。因此,我考虑使用 dbpedia 并使用 Jena (SPARQL) 获取数据。 我怎样才能做到这一点?是否有一个简单的查询可以将所有属性作为键值对提供?或者RDF,然后将其转换为我需要的。
I'm looking to get all infobox properties and values from Wikipedia pages (only ones that contain infobox).
Parsing the infobox using a simple WebRequest will give me too much junk. Therefore, I considering using dbpedia and getting the data using Jena (SPARQL).
How can I do that? is there a simple query that will give me all properties as key value pairs? Or RDF and then convert it to what I need.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
dbpedia 有一个公共 SPARQL 端点,位于 http://dbpedia.org/sparql,您可以使用它
实验。有用于构建查询的示例和各种其他工具,请参见 http://wiki.dbpedia.org/OnlineAccess。您还可以下载数据集以在本地尝试查询。
澄清一下,RDF 是 dbpedia 发布的数据格式。SPARQL 是用于查询 RDF 的查询语言。 Jena 是一个特定的实现,包括 RDF 数据存储和 SPARQL 引擎。
There is a public SPARQL endpoint to dbpedia at http://dbpedia.org/sparql which you can use to
experiment. There are examples and various other tools for building queries, described at http://wiki.dbpedia.org/OnlineAccess. You can also download datasets to try queries locally.
Just to clarify, RDF is the data format that dbpedia is published in. SPARQL is the query language for querying RDF. Jena is a specific implementation that inclues RDF datastore(s) and a SPARQL engine.
尝试使用 http://wiki.dbpedia.org/Downloads37 中的转储。
例如“原始信息框属性”。
Try to use dumps from http://wiki.dbpedia.org/Downloads37.
For example "Raw Infobox Properties".