未知字符

发布于 2024-12-05 18:58:15 字数 176 浏览 0 评论 0原文

我从编码为“UTF-8”的文件中读取字符串。我需要将它与一个表达式相匹配。 文件的第一个字符是#,但在字符串中第一个字符是''(空符号)。我已经将其转换为字符集“UTF-8”的字节,这里是[-17,-69,-65]。有谁知道它是什么以及如何用正则表达式解决它?

I read the string from file with encoding "UTF-8". And I need to match it to a expression.
The first character of the file is #, but in the string the first is ''(empty symbol). I have translated it into bytes with charset "UTF-8", here it is [-17, -69, -65]. Does anyone know what is it and how to solve it with regexprs?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

怪异←思 2024-12-12 18:58:15

某些编辑器(如记事本)在保存 UTF-8 文本时添加 BOM(字节顺序掩码)签名。在从此类文件读取字符串之前,您应该检查 0xEF、0xBB、0xBF 字节,如果存在则跳过它们。

另一种方法是不要使用记事本编辑 UTF-8 文本,使用其他程序,如 Notepad++、Kate 或任何可以控制添加 BOM 的程序。

Some editors (like notepad) adds BOM (byte order mask) signature when saved UTF-8 text. You should check 0xEF, 0xBB, 0xBF bytes before read string from such file and skip them if they exists.

Another way is do not use notepad for editing UTF-8 texts, get other program like Notepad++, Kate or whatever with witch you can control adding BOM.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文