当前位置：文江博客话题详情

如何在不读取整个文件的情况下找出文件有多少个字符？

发布于 2024-11-09 10:17:07 字数 313 浏览 5 评论 0原文

如果文件是文本文件，并且 StreamReader 可以计算出它使用的编码，那么如何在不读取整个文件的情况下找出它有多少个字符？

我正在读取 1GB CSV 文件，使用 StreamReader 读取它至少需要 4 秒。 File.ReadAllText().Length 会导致 System.OutOfMemoryException。

我想如果我有 FileInfo(filename).Length 和 Encoding，那么我可以计算字符数。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

草莓味的萝莉 2024-11-16 10:17:08

对于 ASCII、CP-437、CP-1252、ISO-8859-1 或类似的代码页，字符数将是字节数。

如果文件是UTF-16，那么你无法从字节数得知字符数，但很可能类似于字节数/2。无论如何，你可以准确计算出内存大小需要将文件保存在 .NET 字符串中，因为它将是文件的大小（因为 .NET 在内部使用 UTF-16）加上恒定的开销。此类字符串的长度将是字节数除以 2。

如果文件采用 UTF-8（或任何其他可变宽度编码），则字符数可能会很大，最多可达文件数的数倍。字节，也可以是每个字节一个字符。这仅取决于数据。

如果文件采用 UTF-32 格式（这极不可能），则字符数将恰好是文件长度（以字节为单位）除以四。但即使这是确切的字符数，它也不表示从此文件创建的 .NET 字符串的长度，因为这可能涉及对高平面中的字符使用代理代码点，因此答案仍然取决于您打算如何处理这些信息。

回复收藏 0 原文

清晰传感 2024-11-16 10:17:08

我不认为它真的可以 - 某些编码使用不同的字节数对字符进行编码，因此您确实需要将字节转换为字符才能找到字符数。

例如，在UTF-8中，从\u0000到\u007F的字符仅用1个字节表示； \0u0080 和 \u07FF 之间需要 2 个字节，依此类推。

回复收藏 0 原文

葵雨 2024-11-16 10:17:08

对于某些编码，此方法有效（ASCII、Window 1262、IBM-850 等），但不适用于 UTF8 和 UTF7，因为它们的某些字符编码为 1 字节，某些字符编码为 2（我相信有些字符甚至编码为 2）。

回复收藏 0 原文

感性不性感 2024-11-16 10:17:08

这样做的问题是，如果文件是 UTF8 编码的，那么每个字符可以占用 1 到 4 个字节，因此如果不以某种方式处理文件，就无法“计算”字符数。

其他编码方法可能会更有效。

回复收藏 0 原文

时光与爱终年不遇 2024-11-16 10:17:07

你不能。原因是，某些编码（特别是 UTF-8）具有可变的字符宽度：有些字符仅占用 1 个字节（ASCII），很多占用 2 个字节，甚至有每个字符 3 个或更多字节的情况。因此，如果不解码字符，就不可能知道编码下文件的长度。

另外，C# 字符串中的所有字符都表示为 UTF-16，AFAIK，所以除非您有一个非常奇怪的文本（即您使用了来自外部的许多字符 plane 0），您可以通过将字符数乘以 2 来相当轻松地估计以字节为单位的内存需求（反之亦然，通过将字符数加倍来估计字符数）字节大小）。

现在，一个更好的问题是 - 为什么需要字符数？您稍后要对 CSV 文件执行什么操作，想要将其全部加载到内存中？为什么知道它的大小会有帮助？

回复收藏 0 原文

~没有更多了~

关于作者

千と千尋

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

如何在不读取整个文件的情况下找出文件有多少个字符？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

饮湿

明月

02

hs1283

风向决定发型

落花浅忆

友情链接

如何在不读取整个文件的情况下找出文件有多少个字符？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

饮湿

明月

02

hs1283

风向决定发型

落花浅忆

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。