读取带有西里尔字母的文件

发布于 2024-08-21 14:16:49 字数 508 浏览 2 评论 0原文

我必须打开带有西里尔字母符号的文件。我已经将文件编码为utf8。这是示例：

zh: 你的家人买不起吗？适合你的服装
ru: Не ваша семья позволить себе костюм для вас

如何打开文件：

ifstream readFile(fileData.c_str());
while (!readFile.eof())
{
  std::getline(readFile, buffer);
  ...
}

第一个麻烦，文本“en”之前有一些符号（我在调试器中看到了这个）：

“ï»¿en：至少”

另一个麻烦是西里尔字母符号：

“ru：Ð½Ð°Ð¸Ð¡ÐµÐ½ÑŒÑˆÐ¸Ð1”

怎么了？

原文

I have to open file with cyrillic symbols. I've encoded file into utf8. Here is example:

en: Couldn't your family afford a
costume for you
ru: Не ваша семья
позволить себе костюм для вас

How do I open file:

ifstream readFile(fileData.c_str());
while (!readFile.eof())
{
  std::getline(readFile, buffer);
  ...
}

The first trouble, there is some symbol before text 'en' (I saw this in debugger):

"ï»¿en: least"

And another trouble is cyrillic symbols:

" ru: Ð½Ð°Ð¸Ð¼ÐµÐ½ÑŒÑˆÐ¸Ð¹"

What's wrong?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦回梦里 2024-08-28 14:16:49

文本“en”之前有一些符号

，这是一个人造 BOM，是将 U+FEFF BYTE ORDER MARK 字符编码为 UTF-8 的结果。

由于 UTF-8 是一种没有字节顺序的编码，因此永远不应该使用人造 BOM，但不幸的是，相当多的现有软件（尤其是在 MS 世界中）仍然这样做。将消息文件加载到文本编辑器中，然后再次将其另存为 UTF-8，如果特别列出了“UTF-8 without BOM”编码，则使用“UTF-8 without BOM”编码。

ru: Ð½Ð°Ð¸ÐðÐµÐ½ÑŒÑˆÐ¸Ð1

这就是当您获得 UTF-8 字节字符串（表示 наименьший）并将其打印为代码页 1252 (Windows Western) 时所得到的结果欧洲）字节字符串。这不是输入问题；您已读入字符串 OK 并且有一个 UTF-8 字节字符串。但是，在您未引用的代码中，它的输出为 cp1252。

如果您只是将其打印到控制台，这是可以预料的，因为控制台始终使用系统默认代码页（在西方 Windows 安装上为 1252），而不是 UTF-8。如果您需要将 Unicode 发送到控制台，则必须将字节转换为本机 Unicode wchar 并从那里写入它们。我不知道你的字符串的最终目的地是什么......如果你只是要将它们写入另一个文件或其他文件，你可以将它们保留为字节而不关心它们采用的编码。