当前位置：文江博客话题详情

寻找文本文件

发布于 2024-10-12 10:55:30 字数 120 浏览 6 评论 0原文

我正在处理非常大的文本文件，2GB 甚至更多。我想要一个类似 Seek() 的函数。有人做过类似的事情吗？加载到 TStringList 是不可能的。也可以处理非类型化文件。目前我正在使用 readLn，但持续时间太长。谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

内心旳酸楚 2024-10-19 10:55:30

将文件逐块映射到内存（CreateFileMapping/MapViewOfFile），然后扫描映射的内存并构建索引 - 每行开头的位置列表。然后，您的查找操作将通过获取文件中第 N 行的位置并查找到该位置来执行。然后使用 TFileStream 对文件执行随机访问，或者，如果您只读取文件，也可以使用文件映射进行随机访问 - 这可能比并行使用 TFileStream 与文件映射更快。

回复收藏 0 原文

浪荡不羁 2024-10-19 10:55:30

尝试GpHugeFile。

Windows 文件处理例程的封装，允许处理大于 2GB 的文件。
其中包括对非缓冲访问 (FILE_FLAG_NO_BUFFERING) 和对顺序访问文件的缓冲的支持。还包括流包装类。

回复收藏 0 原文

涫野音 2024-10-19 10:55:30

你设置了一些相当严格的边界条件。

我唯一能想到的就是尝试从文本文件中获取句柄，并使用 win32 函数直接查找。但要注意文本文件缓存。

如果使用 writeln/readln 的大型代码库是原因，那么实现允许它（或简化缓存）的您自己的文本文件驱动程序可能是解决方案。

Free Pascal 有一个 getfilehandle 函数用于此目的，从 textfile/tfilerec 文件中检索操作系统句柄。我不知道最近Delphi在这个部门添加了什么。

回复收藏 0 原文

指尖凝香 2024-10-19 10:55:30

如果您需要行级粒度而不是字节级，则绝对没有办法避免至少读取一次整个文件以找到行结束标记（LF 或 CRLF，具体取决于您的环境。）这是硬限制——你无法提前知道你的行尾在哪里。

在构建行尾到字节偏移索引后，您可以将其缓存在磁盘上，并使用启发式“上次修改时间”来检查索引是否需要重新生成（您需要启发式，因为您无法确保文件内容没有改变，除非通过阅读它，然后你可能会重建索引，因为你无论如何都会受到 I/O 限制。）

正如其他人所建议的，底层机制必须是 CreateFileMapping / CreateViewOfFile （或 POSIX 下的 mmap。）

回复收藏 0 原文

夜访吸血鬼 2024-10-19 10:55:30

您可以使用此函数更改 TText 文件中的当前位置：

function TextSeek(var f: Text; position: Int64): boolean;
var pos64: Int64Rec absolute position;
    resHi: cardinal;
begin
  result := false;
  with TTextRec(f) do
  begin
    if mode<>fmInput then
      exit;
    resHi := pos64.Hi;
    if (SetFilePointer(handle,pos64.Lo,@resHi,FILE_BEGIN)<>pos64.Lo) or
       (resHi<>pos64.Hi) then
      exit;
    BufEnd := 0; // flush internal reading buffer
    BufPos := 0;
    result := true; // success
  end;
end;

成功时返回 true，出错时返回 false（未打开文件的无效位置）。

如果您想快速访问，请确保已设置 {$I-} 并手动检查 IOResult，并使用一些缓冲区调用 System.SetTextBuffer()（1 KB 到 64 KB 都可以）。

You can use this function to change the current position in a TText file:

function TextSeek(var f: Text; position: Int64): boolean;
var pos64: Int64Rec absolute position;
    resHi: cardinal;
begin
  result := false;
  with TTextRec(f) do
  begin
    if mode<>fmInput then
      exit;
    resHi := pos64.Hi;
    if (SetFilePointer(handle,pos64.Lo,@resHi,FILE_BEGIN)<>pos64.Lo) or
       (resHi<>pos64.Hi) then
      exit;
    BufEnd := 0; // flush internal reading buffer
    BufPos := 0;
    result := true; // success
  end;
end;

It will return true on success, false on error (invalid position of file not opened).

If you want to have fast access, ensure that you have set {$I-} and check IOResult by hand, and have called System.SetTextBuffer() with some buffer (1 KB up to 64 KB could make sense).

回复收藏 0 原文

~没有更多了~