将包含 COMBINING DIAERESIS 的文本转换为 utf-8
我们有一些文本包含使用“a”+组合分音符号表示的德语变音符号 ($cc $88)。
知道如何将此类文本正确转换为 utf8 吗?
We hav some text containing german umlauts represented using e.g. 'a' + COMBINING DIAERESIS
($cc $88).
Any idea how to convert such text properly to utf8?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
首先,如果它还不是
unicode
则对其进行解码。其次,unicodedata.normalize()
。第三,编码。First, if it's not already a
unicode
then decode it. Second,unicodedata.normalize()
. Third, encode.