当前位置：文江博客话题详情

重音编码

发布于 2024-12-09 12:34:14 字数 292 浏览 1 评论 0原文

我尝试在 Delphi 中读取包含重音符号的字符串。我不知道字符串的真正编码。我想它是UNICODE。

我的问题是口音。

当我将其读取为 UNICODE 时，字符é显示为e（2个字符：e和'）

è有同样的问题 它被视为e`（2个字符：e和`）

为什么呢？

感谢您的帮助。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

撧情箌佬 2024-12-16 12:34:14

Unicode 有两种组合模式。本 ICU 文档对此进行了解释。显然，您正在读取的字符串使用分解模式（因此é被编码为e和´）。默认情况下，Windows 使用预组合模式，其中é 被编码为单独的字符。

如果您想比较字符串，从一种模式转换为另一种模式是有意义的。然而，没有统一的方法来做到这一点。 ICU文件提供了一些帮助。

如果正确完成，合成模式应该不会在屏幕上产生任何差异。

更新

此MSDN 文章详细解释了如何在 Windows 上标准化 Unicode 字符串。

回复收藏 0 原文

回首观望 2024-12-16 12:34:14

如果您的问题确实是错误的组合模式，正如鲁迪所猜测的那样，那么 WideCharToMultiByte 函数可以帮助您将字符串转换为预组合模式。请参阅 WideCharToMultiByte 帮助末尾的注释“WC_COMPOSITECHECK 和相关标志”。

回复收藏 0 原文

九局 2024-12-16 12:34:14

出现单独的变音符号的一个可能原因是 Unicode 中的数据丢失 -> 。 ANSI 转换。这是一个代码示例（Delphi 2009）：

type
  Str1252 = type AnsiString(1252);

var
  S, S2: string;
  S1: Str1252;

begin
  SetLength(S, 2);
  S[1]:= Char($0041);
  S[2]:= Char($0301);
  S1:= S;   // Ord(S1[2]) = $B4; the compiler issues warning W1058:
            // Implicit string cast with potential data loss from 'string' to 'Str1252'
  S2:= S1;  // Ord(S2[2]) = $B4
  ShowMessage(S + ' --> ' + S2);  // Á --> A´
end;

A probable reason for appearance of the separate diacritical marks is data loss in Unicode -> ANSI conversion. Here is a code sample (Delphi 2009):

type
  Str1252 = type AnsiString(1252);

var
  S, S2: string;
  S1: Str1252;

begin
  SetLength(S, 2);
  S[1]:= Char($0041);
  S[2]:= Char($0301);
  S1:= S;   // Ord(S1[2]) = $B4; the compiler issues warning W1058:
            // Implicit string cast with potential data loss from 'string' to 'Str1252'
  S2:= S1;  // Ord(S2[2]) = $B4
  ShowMessage(S + ' --> ' + S2);  // Á --> A´
end;

回复收藏 0 原文

~没有更多了~