utf-8 加问号

发布于 2024-10-24 00:18:43 字数 283 浏览 1 评论 0原文

我有一个网站,通过使用 utf-8 将用户输入解码为 un​​icode 来显示用户输入。然而,用户输入可以包含二进制数据,这显然并不总是能够被 utf-8“解码”。

我正在使用 Python,并且收到一条错误消息:

“utf8”编解码器无法解码位置 0 中的字节 0xbf:意外的代码字节。您传入了 '\xbf\xcd...

是否有一种标准有效的方法将那些无法解码的字符转换为问号?

如果答案使用Python,那将是最有帮助的。

I have a site that displays user input by decoding it to unicode using utf-8. However, user input can include binary data, which is obviously not always able to be 'decoded' by utf-8.

I'm using Python, and I get an error saying:

'utf8' codec can't decode byte 0xbf in position 0: unexpected code byte. You passed in '\xbf\xcd...

Is there a standard efficient way to convert those undecodable characters into question marks?

It would be most helpful if the answer uses Python.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

苯莒 2024-10-31 00:18:43

尝试:

inputstring.decode("utf8", "replace")

请参阅此处以供参考

Try:

inputstring.decode("utf8", "replace")

See here for reference

抚笙 2024-10-31 00:18:43

我认为您正在寻找的是:

str.decode('utf8','ignore')

它应该删除无效字节而不是引发异常

I think what you are looking for is:

str.decode('utf8','ignore')

which should drop invalid bytes rather than raising exception

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文