当前位置：文江博客话题详情

通过非unicode代码读取UTF-8 Unicode文件

发布于 2024-07-30 11:48:34 字数 325 浏览 1 评论 0原文

我必须读取一个 UTF-8 编码的 Unicode 文本文件，并且必须将此数据写入另一个文本文件。该文件在行中包含制表符分隔的数据。

我的阅读代码是不支持 unicode 的 C++ 代码。我正在做的是在 string/char* 中逐行读取文件，并将该字符串按原样放入目标文件。我无法更改代码，因此不欢迎代码更改建议。

我想知道的是，在逐行读取时，我是否可以在一行中遇到 NULL 终止字符（'\0'），因为它是 unicode 并且一个字符可以跨越多个字节。

我的想法是，一行中很可能会遇到 NULL 终止字符。你的想法？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

凉宸 2024-08-06 11:48:34

UTF-8 对所有 ASCII 字符使用 1 个字节，这些字符与标准 ASCII 编码中的代码值相同，对其他字符最多使用 4 个字节。每个字节的高位被保留作为控制位。对于使用超过 1 个字节的代码点，将设置控制位。

因此，UTF-8 文件中不应有 0 个字符。

检查维基百科 UTF-8

回复收藏 0 原文

谁的新欢旧爱 2024-08-06 11:48:34

不太可能：UTF-8 转义序列中的所有字节的较高位都设置为 1。

回复收藏 0 原文

~没有更多了~

关于作者

┾廆蒐ゝ

暂无简介

0 文章

0 评论

22 人气

关注发私信

qq_FjTq5B

文章 0 评论 0

关注

18273202778

文章 0 评论 0

关注

WordPress小学生

文章 0 评论 0

关注

〃温暖了心ぐ

文章 0 评论 0

关注

迷乱花海

文章 0 评论 0

关注

niuniu

文章 0 评论 0

友情链接

文江博客

通过非unicode代码读取UTF-8 Unicode文件

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签