如何修复RedShift中用ISO-8859-1解码的UTF-8

发布于 2025-01-21 04:38:28 字数 532 浏览 3 评论 0原文

我认为一个数据集是ISO-8859-1编码的，而实际上是在UTF-8中编码的。我写了一个Python脚本，在其中用ISO-8859-1解码数据，并将其写入红移SQL数据库中。我将混乱的字符写入红移表中，写入桌子时没有发生解码。（使用错误编码的使用Python和Pandas）

现在数据源不再可用，但是表中的数据具有很多混乱的字符。

例如'HelloGünter' - ＆gt; 'HelloGă -nter'

解决此问题的最佳方法是什么？现在，我只能想到收集完整的杂物字符及其翻译清单，但也许有一种我没有想到的方法。所以我的问题：

首先，我想知道解码发生时是否丢失了信息。我也想知道，RedShift是否有办法解决这样的解码问题。最后，我一直在寻找一个完整的列表，因此我不必自己创建它。我找不到这样的清单。

谢谢

编辑：我拉了一部分桌子，发现我必须做以下操作：

“ð\x97ð°ð¼ñ\x83ðq .decode（'utf8'）

表有数十亿的行，是否可以在红移中这样做？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

喵星人汪星人

暂无简介

文章

27 人气

关注发私信

十二

文章 0 评论 0

关注

飞烟轻若梦

文章 0 评论 0

关注

OPleyuhuo

文章 0 评论 0

关注

wxb0109

文章 0 评论 0

关注

旧城空念

文章 0 评论 0

关注

-小熊_

文章 0 评论 0

友情链接

文江博客

如何修复RedShift中用ISO-8859-1解码的UTF-8

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

关于作者

相关话题

热门标签

推荐作者