当前位置：文江博客话题详情

Perl UTF-8 encode Unicode

关于“utf-8”行为的问题

发布于 2024-10-20 02:09:29 字数 432 浏览 3 评论 0原文

#!/usr/bin/env perl
use warnings;
use 5.012;
use Encode qw(encode);

no warnings qw(utf8);

my $c = "\x{ffff}";

my $utf_8 = encode( 'utf-8', $c );
my $utf8 = encode( 'utf8', $c );

say "utf-8 :  @{[ unpack '(B8)*', $utf_8 ]}";
say "utf8  :  @{[ unpack '(B8)*', $utf8 ]}";

# utf-8 :  11101111 10111111 10111101
# utf8  :  11101111 10111111 10111111

“utf-8”是否以这种方式编码，以将我的代码点自动修复为（第一个平面的）最后一个可互换的代码点？

#!/usr/bin/env perl
use warnings;
use 5.012;
use Encode qw(encode);

no warnings qw(utf8);

my $c = "\x{ffff}";

my $utf_8 = encode( 'utf-8', $c );
my $utf8 = encode( 'utf8', $c );

say "utf-8 :  @{[ unpack '(B8)*', $utf_8 ]}";
say "utf8  :  @{[ unpack '(B8)*', $utf8 ]}";

# utf-8 :  11101111 10111111 10111101
# utf8  :  11101111 10111111 10111111

Does the "utf-8" encode this way, to fix my codepoint automaticaly to the last interchangeable codepoint (of the first plane)?

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

仅此而已 2024-10-27 02:09:29

请参阅 UTF-8 与 utf8 与 UTF8 部分编码文档。

总而言之，Perl 有两种不同的 UTF-8 编码。它的本机编码称为 utf8，基本上允许任何代码点，无论 Unicode 标准对该代码点有何规定。

另一种编码称为 utf-8（又名 utf-8-strict）。这仅允许由 Unicode 标准分配的代码点。

根据 Unicode，\x{FFFF} 不是有效的代码点。但 Perl 的 utf8 编码并不关心这一点。

默认情况下，encode 函数会将目标字符集中不存在的任何字符替换为替换字符（请参阅处理格式错误的数据部分）。对于 utf-8，该替换字符为 U +FFFD（替换字符），以 UTF-8 编码为 11101111 10111111 10111101（二进制）。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文