未知字符
我从编码为“UTF-8”的文件中读取字符串。我需要将它与一个表达式相匹配。 文件的第一个字符是#
,但在字符串中第一个字符是''
(空符号)。我已经将其转换为字符集“UTF-8”的字节,这里是[-17,-69,-65]
。有谁知道它是什么以及如何用正则表达式解决它?
I read the string from file with encoding "UTF-8". And I need to match it to a expression.
The first character of the file is #
, but in the string the first is ''
(empty symbol). I have translated it into bytes with charset "UTF-8", here it is [-17, -69, -65]
. Does anyone know what is it and how to solve it with regexprs?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
某些编辑器(如记事本)在保存 UTF-8 文本时添加 BOM(字节顺序掩码)签名。在从此类文件读取字符串之前,您应该检查 0xEF、0xBB、0xBF 字节,如果存在则跳过它们。
另一种方法是不要使用记事本编辑 UTF-8 文本,使用其他程序,如 Notepad++、Kate 或任何可以控制添加 BOM 的程序。
Some editors (like notepad) adds BOM (byte order mask) signature when saved UTF-8 text. You should check 0xEF, 0xBB, 0xBF bytes before read string from such file and skip them if they exists.
Another way is do not use notepad for editing UTF-8 texts, get other program like Notepad++, Kate or whatever with witch you can control adding BOM.