如何检测一个文本文件的编码方式,策略是什么?
txt文件有ANSI编码方式,UNICODE LE,UNICODE BE,UTF-8 with BOM,UTF-8 without BOM。
用什么策略可以检测文本的编码并正确的转换为win32程序内部的unicode编码方式?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
1、如果2个字节是0xFF 0xFE,则以Unicode(LE)的方式读取,
2、如果2个字节是0xFE 0xFF,则以Unicode BE的方式读取
3、如果前2个字节是0xEF 0xBB,那么判断第3个字节是不是0xBF,如果是的话就以UTF-8的方式进行读取。
4、判断是否符合UTF-8的编码规范,如果符合就以UTF-8的方式进行读取
5、如果以上都不是,则以ANSI的方式进行读取。
http://www.cnblogs.com/lkpp/p...