将嵌套字典/xml 转换为 sqlite 的平面文件

发布于 2024-10-19 14:18:47 字数 698 浏览 3 评论 0原文

我已经在网上搜索过，似乎找不到合适的例子，所以我想我会问...... （顺便说一句，其中大部分对我来说都是新的 - 不是全部，只是大多数。）

问题：尝试将已发布的引文数据的 bio/python 嵌套字典（或 xml）转换为平面（规范化）结构，例如 sqlite。引文数据是使用 biopython 从 pubmed 获取的，并解析为字典，但如果需要，也可以检索为 xml。

并非所有引文都具有所有字段/键，并且并非所有字段/键都具有相同数量的项目（作者、网格术语、参考文献等），并理解这是标准化过程的一部分。

我的实际理解到此为止。

也就是说，我认为这个过程应该是这样的：首先删除/规范化所有唯一字段（每篇论文有 1 个字段，例如标题、摘要、日期、引文等......，但不要说隶属关系，因为这将是链接到第一作者）。没有摘要的论文可以填空吗？

然后继续，比如说，作者并使用 PMID 作为 fk 再次创建一个单独的表，然后对单独表中的各种其他字段/键/项目执行相同的操作，例如网格标题、EC 编号、参考等...

是有没有办法做到这一点，从主词典中删除（弹出？）键/项目，以便我可以直观地看到已完成/需要完成的操作（显然离开 PMID）？

再次，如果我向初学者提出一个非常明显的问题，请提前道歉 - 我确实明白你不能将嵌套结构放入平坦的空间中 - 只是寻找最不愚蠢的方法来解决这个问题，并希望有一个这将使我能够确保所有内容都被正确捕获。

非常感谢，克里斯

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

歌枕肩 2024-10-26 14:18:47

一个简单的问题 - 如果您已经拥有 XML 格式的数据，为什么要将其规范化为 SQL 格式？为什么不直接使用原始 XML？ Berkeley DB XML 是一个链接到您的应用程序的库（如 SQLite）。无需安装或维护单独的服务器。该库允许您使用 XPath 或 XQuery 存储和查询 XML 数据。它速度非常快，占地面积小。是事务性的、可恢复的并且高度可靠。如果需要的话，它还具有 HA 功能。

将数据保存在 XML 中应该会简化整个数据导入过程，并且仍然允许您查询半结构化数据。

回复收藏 0 原文

~没有更多了~