如何从 Freebase 转储中提取三元组？

发布于 2025-01-13 22:27:13 字数 1320 浏览 1 评论 0原文

我想收集一个大型的三元组知识库：主语、宾语、谓语，因此我从开发者页面，其中包含 RDF 格式的三元组，我想将其解码为可读的格式。我怎样才能实现这个目标？

目前我正在关注 nchah 的 Github

并正在运行 shell 脚本 VirtualBox Ubuntu 上的 s0-run-parse-extract-triples.sh ，它应该通过删除 URL 但保留 ID 来清理 RDF 的输入数据，并将我的输入数据传递为freebase-triples.txt 这是 30Gb freebase-rdf-latest.gz 中 100 行的示例作为论证。

你可以找到代码 here

请注意，我收到消息 目录中没有此类文件，因此我删除了第 8 行，并在第 17 行添加了 $1 而不是$INPUT_FILE 负责处理此消息，并且在第 21 行中我删除了 # 符号并将 gsed 更改为 sed，我还添加了回显消息来进行一些跟踪。

这就是我运行它的方式：sh s0-run-parse-extract-triples.sh freebase-triples.txt

检查出现的错误这里

我正在获取输出文件 fb-rdf-s01-c01 但它仍然具有 URL 并且其未更改从我的输入中，我还得到了另一个文件 fb-rdf-s01-c02 但它是空的 .

原文