当前位置：文江博客话题详情

如何在 Linux 中打开包含非 Ascii 字符串的 wchar_t* 文件？

发布于 2024-10-12 08:41:16 字数 135 浏览 7 评论 0原文

环境：Gcc/G++ Linux

我的文件系统中有一个非ascii 文件，我要打开它。

现在我有一个wchar_t*，但我不知道如何打开它。（我信任的 fopen 只打开 char* 文件）

请帮忙。多谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

倾城°AllureLove 2024-10-19 08:41:16

有两个可能的答案：

如果您想确保所有 Unicode 文件名均可表示，您可以对文件系统使用 UTF-8 文件名的假设进行硬编码。这是“现代”Linux 桌面应用程序方法。只需使用库函数（iconv 效果很好）或您自己的实现（但查找规范，这样您就不会将字符串从 wchar_t (UTF-32) 转换为 UTF-8）不要像 Shelwien 那样犯严重错误），然后使用 fopen。

如果您想以更面向标准的方式执行操作，则应该使用 wcsrtombs 将 wchar_t 字符串转换为多字节 char 字符串语言环境的编码（在任何现代系统上都希望是 UTF-8）并使用 fopen。请注意，这要求您事先使用 setlocale(LC_CTYPE, "") 或 setlocale(LC_ALL, "") 设置区域设置。

最后，不完全是答案，而是建议：

将文件名存储为 wchar_t 字符串可能是一个可怕的错误。您应该将文件名存储为抽象字节字符串，并且仅将它们及时转换为 wchar_t 以便在用户界面中显示它们（如果有必要的话；许多 UI 工具包使用纯字节字符串）他们自己并为您将其解释为角色）。通过这种方式，您可以消除许多可能令人讨厌的极端情况，并且您永远不会遇到某些文件因其名称而无法访问的情况。

回复收藏 0 原文

倾听心声的旋律 2024-10-19 08:41:16

Linux 不是 UTF-8，但它是您对文件名的唯一选择

（文件中可以包含您想要的任何内容。）

对于文件名，Linux 并不需要真正担心字符串编码。文件名是需要以 null 结尾的字节字符串。

这并不完全意味着 Linux 是 UTF-8，但它确实意味着它与宽字符不兼容，因为它们可能在不是结束字节的字节中包含零。

但 UTF-8 保留了 no-nulls- except-at-the-end 模型，所以我不得不相信，实际的方法是文件名“转换为 UTF-8”。

文件的内容是 Linux 内核级别以上标准的问题，因此这里没有任何 Linux-y 可以或想要做的事情。文件的内容将仅由读写它们的程序关心。 Linux只是存储并返回字节流，它可以拥有你想要的所有嵌入的nul。

回复收藏 0 原文

平定天下 2024-10-19 08:41:16

将 wchar 字符串转换为 utf8 char 字符串，然后使用 fopen。

typedef unsigned int   uint;
typedef unsigned short word;
typedef unsigned char  byte;

int UTF16to8( wchar_t* w, char* s ) {
  uint  c;
  word* p = (word*)w;
  byte* q = (byte*)s; byte* q0 = q;
  while( 1 ) {
    c = *p++;
    if( c==0 ) break;
    if( c<0x080 ) *q++ = c; else 
      if( c<0x800 ) *q++ = 0xC0+(c>>6), *q++ = 0x80+(c&63); else 
        *q++ = 0xE0+(c>>12), *q++ = 0x80+((c>>6)&63), *q++ = 0x80+(c&63);
  }
  *q = 0;
  return q-q0;
}

int UTF8to16( char* s, wchar_t* w ) {
  uint  cache,wait,c;
  byte* p = (byte*)s;
  word* q = (word*)w; word* q0 = q;
  while(1) {
    c = *p++;
    if( c==0 ) break;
    if( c<0x80 ) cache=c,wait=0; else
      if( (c>=0xC0) && (c<=0xE0) ) cache=c&31,wait=1; else 
        if( (c>=0xE0) ) cache=c&15,wait=2; else
          if( wait ) (cache<<=6)+=c&63,wait--;
    if( wait==0 ) *q++=cache;
  }
  *q = 0;
  return q-q0;
}

Convert wchar string to utf8 char string, then use fopen.

typedef unsigned int   uint;
typedef unsigned short word;
typedef unsigned char  byte;

int UTF16to8( wchar_t* w, char* s ) {
  uint  c;
  word* p = (word*)w;
  byte* q = (byte*)s; byte* q0 = q;
  while( 1 ) {
    c = *p++;
    if( c==0 ) break;
    if( c<0x080 ) *q++ = c; else 
      if( c<0x800 ) *q++ = 0xC0+(c>>6), *q++ = 0x80+(c&63); else 
        *q++ = 0xE0+(c>>12), *q++ = 0x80+((c>>6)&63), *q++ = 0x80+(c&63);
  }
  *q = 0;
  return q-q0;
}

int UTF8to16( char* s, wchar_t* w ) {
  uint  cache,wait,c;
  byte* p = (byte*)s;
  word* q = (word*)w; word* q0 = q;
  while(1) {
    c = *p++;
    if( c==0 ) break;
    if( c<0x80 ) cache=c,wait=0; else
      if( (c>=0xC0) && (c<=0xE0) ) cache=c&31,wait=1; else 
        if( (c>=0xE0) ) cache=c&15,wait=2; else
          if( wait ) (cache<<=6)+=c&63,wait--;
    if( wait==0 ) *q++=cache;
  }
  *q = 0;
  return q-q0;
}

回复收藏 0 原文