当前位置：文江博客话题详情

磁盘指针如何工作？

发布于 2024-08-17 21:18:21 字数 294 浏览 14 评论 0原文

假设我想将一个复杂的数据结构（例如树）存储到磁盘上。连接数据结构中节点的内部指针是指针，但我不能将这些指针写入磁盘，因为当我读回数据结构时，内存位置将发生变化。

那么在磁盘上存储指针的正确方法是什么？答案是否像（文件，偏移量）一样简单，还是我遗漏了一些东西？我可以凭直觉知道指针如何转换为（文件，偏移）对，然后再转换回来，但是有一些我应该注意的微妙之处吗？

编辑：我应该提到，我对数据库如何在内部为 b 树执行此操作特别感兴趣。尽管我确实很欣赏基于 XML 的答案，但我提出的问题可能比我应该提出的更笼统。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

溇涏 2024-08-24 21:18:21

您对（文件，偏移量）对的直觉是正确的。

在磁盘上存储数据时需要注意的一个重要事项是磁盘速度很慢。因此，有一些特殊的数据结构被设计用于在磁盘上存储“可搜索”数据。使用（文件，偏移量）指针访问存储在磁盘上的二叉搜索树的节点将比访问内存中的节点慢几个数量级。

如果访问速度很重要，您可能希望将需要一起访问的内容存储在磁盘上，距离更近。用于此目的的几个数据结构是 B-tree 和 B+ 树。查看这些，了解如何使用它们。数据库等多个应用程序使用复杂的缓存算法来将内容缓存在内存中，以便应用程序不需要一次又一次地访问磁盘来检索内容。

如果访问速度并不重要，那么按照 Aiden 和 Darren 的建议，简单地以 XML 形式“序列化”磁盘上的数据就足够了。

编辑：如果您需要有关数据库如何在磁盘上存储数据的更多详细信息，您需要了解有关数据库理论的更多信息。我建议阅读一本关于数据库的好书，以便您了解驱动磁盘格式的要求。请注意，我主要指的是关系数据库在这里，但还有其他数据库，其完全具有不同的要求因此不同的磁盘格式。不过，从关系数据库开始是一件好事，因为它们是最常用的。

简而言之，影响关系数据库磁盘格式的一些因素是：

磁盘读/写性能
数据库恢复（如果损坏）
关系实体之间
垃圾收集
事务支持
主索引

查询优化是数据库理论的一个重要分支，用于优化磁盘访问，以满足查询。希望这能让您开始正确的方向。

回复收藏 0 原文

机场等船 2024-08-24 21:18:21

反正你喜欢就好。您可以将其存储为对每个节点的文件系统顶部的其他文件的引用，或者编写使用块引用的文件系统驱动程序。

提供：

您的节点包含对持久位置的引用
您可以在编写节点时知道要写入哪些位置

您可以按照您希望的方式进行操作。 文件系统是使用基于磁盘的索引节点系统的树。

您始终可以使用带有标头的单个文件，并使用存储为无符号整数或映射到整数的值的字节偏移量。在文件内表示某个节点的开始...然后在每个节点的末尾有一个记录结束。

您还可以使用 XML 文件
对其他位置或单个文件和 XPath/XPointers 的引用。

<Node id="someNode">
    <value>...</value>
    <children>
        <child xpath="/node[id=1]" />
        <child xpath="/node[id=29]" />

但这意味着将您的值序列化为字符，如果它们只是二进制 blob (eww) 您的值可能是刚刚写入文件的二进制块的路径，例如：

<value>/path/to/mappable.bin</value>

检查从 XML 封装到用 C 编写的文件系统的任何内容
整个树实现范围。

这个 XML 解决方案可能有点臃肿，但是如果您不需要速度的话，它就足够简单了。只是高级方法的一个示例。树木存储是一个古老的问题，有各个层面的解决方案。

树就是树。

Anyway you like. You could store it as references to other files on-top of a filesystem for each node, or write a filesystem driver that uses block references.

Providing:

Your nodes contain references to locations that persist
You can know when writing a node what locations to write

You can do it any way you wish. Filesystems are trees that use a disk-based inode system.

You could always use a single file with a header and use byte-offsets stored as unsigned ints or values that map onto ints. inside the file to denote the start of some node ... then have an end-of-record at the end of each node.

You could also use XML files with
references to other locations or a single file and XPath/XPointers.

<Node id="someNode">
    <value>...</value>
    <children>
        <child xpath="/node[id=1]" />
        <child xpath="/node[id=29]" />

But this would mean serializing your values into characters if they are just binary blobs (eww) Your value could be a path of a binary chunk just written to a file such as:

<value>/path/to/mappable.bin</value>

Check out anything from XML encapsulation through to filesystems written in C for a
whole gamut of tree implementations.

This XML solution might be bloated, but is simple enough if you don't need speed. Just an example of a high-level approach. Tree storage is an age-old problem, with solutions at all levels.

Trees is trees.

回复收藏 0 原文

软的没边 2024-08-24 21:18:21

确切地说，存储指针值是没有意义的。

您应该创建一种文本或二进制格式，将数据保存在树结构中。
我建议阅读嵌套集模型，这是另一个例子关于在关系数据库中存储树数据结构。

例如，您的数据的存储方式如下：

[meta-data][data]

 [元数据] = [长度][嵌套集模型位置列表]
    [ 数据记录列表 ] = [ lft-#1 ][ rgt-#1 ][ lft-#2 ][ rgt-#2 ] ...
[数据] = [长度][有效负载/数据本身]

这只是一个示例，使用 JSON（推荐）或 XML 可能更好&更轻松。

Exactly, storing pointers value would be meaningless.

You should create a textual or binary format that will hold the data in a tree structure.
I suggest reading about the Nested Set Model, which is another example about storing tree data structure in a relational database.

For example, this is how your data may be stored:

[meta-data][data]

[meta-data] = [ length ][ list-of-Nested-Set-Model-Locations ]
    [ list-of-data-records ] = [ lft-#1 ][ rgt-#1 ][ lft-#2 ][ rgt-#2 ] ...
[data] = [length][ payload / data-itself ]

This is only an example, and using JSON (recommended) or XML maybe better & easier.

回复收藏 0 原文

心头的小情儿 2024-08-24 21:18:21

二进制或文本是第一个问题

历史上应用程序使用复杂的二进制格式来存储结构化数据，但当前的趋势是定义基于文本的表示形式，因为这会产生更多开发人员和用户友好的文件。

XML 是作为一种保存和交换结构化数据的可移植方式而创建的。

如果是我，我会使用类似 XML 但不那么笨重的 YAML。

如果文件可能变得非常大，那么您可以像 OpenOffice 那样，将它们保留为基于文本的标记，但直接写入压缩（我认为它是 OO 的 zip）存档中。

大多数语言已经有序列化库；我确信有一些用于 C 的 Boost 库。通常有多个使用不同表示形式的序列化接口。

如果您使用库、XML 或 YAML，链接将隐含在树结构表示中。如果您的数据有更一般的图表，那么
无论您使用文本还是二进制，您可能都必须规范化链接。这就是你提到的指针问题。解决此问题的一种方法是保留读取或写入文件时使用的临时映射。也就是说，您只需命名每个链接目标，例如 A1、A2、A3 ...，然后将其用作目标处的标记和源处的链接名称（例如 href=）。

我不会使用文件偏移量作为指针，它看起来太脆弱了，使用 XML 或 YAML 或其他已经存在的东西自然是有意义的。

回复收藏 0 原文