如何最好地读取和 UTF-8 解码字节缓冲区？

发布于 2024-12-01 16:56:08 字数 755 浏览 5 评论 0原文

我有一个 Stream生成 UTF-8 编码的字符串。这些字符串代表我需要解析的 XML 文档。该流是从 TcpClient。

假设我将流读入大小为 64 的缓冲区（我知道有点小）。将这些 64 字节缓冲区直接传递到字符串解码步骤可能会失败，因为某些 UTF-8 编码字符可能会沿着 64 字节边界分割。缓冲区可能以字符的前两个字节结束，下一个缓冲区包含该字符的最后一个字节。

我现在要做的是连接缓冲区，直到执行一次未读取完整 64 个字节的读取，这表明我已读取到某些内容的末尾（在我的例子中是一个 XML 文档）。然而，偶尔我读到的 XML 文档恰好在 64 字节边界处结束。在这种情况下，我不知道我可以将字节数组传递到解码步骤（并且我需要等待下一个文档）。

我意识到我可以通过增加缓冲区大小来降低机会。然而，这种情况发生的可能性总是很小。我还可以增加缓冲区大小，以便我遇到的任何 XML 文档都适合，但我只是想知道是否有另一种解决方案，以某种方式从字节流中检测字符边界在哪里。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

好多鱼好多余 2024-12-08 16:56:08

您对问题和陷阱的看法是正确的。

解决方案已经存在：在您的流周围包装一个 StreamReader 并使用 Read() 和 ReadLine()

如果您确实想要一个 DIY 解决方案，那么您'必须查看编码器状态属性。超出了我的能力范围。

回复收藏 0 原文

知你几分 2024-12-08 16:56:08

我相信你的方法在理论上是有缺陷的，即使它在实践中应该总是正确工作：不能保证成功读取小于（缓冲区大小）表明已完整接收 XML 文档。 TCP 堆栈完全有权利每次向您返回一个字节的文档。将缓冲区大小增加到几 KB 应该会导致此问题显现出来。

正确解决上述缺陷也将解决您当前的问题：在 TCP 流中的每个 XML 文档之前添加某种固定长度标头（例如 8 字节），其中包含以下文档的长度。当您阅读完整的标题（因为它的大小是固定的）时，您将始终知道，并且根据标题，您将知道何时收到整个文档。

回复收藏 0 原文

~没有更多了~

关于作者

夜无邪

暂无简介

文章

19452 人气

关注发私信

友情链接

文江博客

如何最好地读取和 UTF-8 解码字节缓冲区？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

眼泪淡了忧伤

corot39

守护在此方

github_3h15MP3i7

相思故

滥情空心

友情链接

如何最好地读取和 UTF-8 解码字节缓冲区？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

眼泪淡了忧伤

corot39

守护在此方

github_3h15MP3i7

相思故

滥情空心

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。