使用 Python 编码东亚语言

发布于 2024-08-21 15:23:35 字数 228 浏览 5 评论 0原文

这可能不是一个真正与 Python 相关的问题，而是与一般语言编码有关。我正在从 Twitter 中挖掘推文，似乎有一个大型的日本用户社区（包含日语消息）。当我尝试将推文编码为 XML 文件时，我使用了 utf-8。例如tweet=tweet.encode('utf-8') 并且没有一条日语推文按其应有的方式出现。我提出的问题是，我应该如何对它们进行编码？我的错误是什么？如果我要将数据存储在 CSV 中，在这种情况下我会使用什么编码方案？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

快乐很简单 2024-08-28 15:23:35

通常，您会查询数据的编码格式。话虽如此，Shift-JIS 是日语文本的一种非常流行的编码。

>>> u'あいうえお'.encode('shift-jis')
'\x82\xa0\x82\xa2\x82\xa4\x82\xa6\x82\xa8'

Normally you would query the format for what encoding the data is in. Having said that, Shift-JIS is quite a popular encoding for Japanese text.

>>> u'あいうえお'.encode('shift-jis')
'\x82\xa0\x82\xa2\x82\xa4\x82\xa6\x82\xa8'

回复收藏 0 原文

℉服软 2024-08-28 15:23:35

从 Twitter 读取推文时，应该有一种方法可以查询推文的编码。然后，在将它们读入程序时将它们解码为 Unicode，然后在将它们写回 XML 文件时编码。例如，中文可能使用 gbk 编码：

import codecs
unicode_data = data.decode('gbk')
f = codecs.open('out.xml','w','utf-8')
f.write(unicode_data)
f.close()

There should be a way to query the encoding of the tweets when read from Twitter. You then decode them to Unicode as you read them into your program, then encode them when you write them back out to an XML file. Chinese, for example, might be using gbk encoding:

import codecs
unicode_data = data.decode('gbk')
f = codecs.open('out.xml','w','utf-8')
f.write(unicode_data)
f.close()

回复收藏 0 原文

~没有更多了~

关于作者

污味仙女

暂无简介

0 文章

0 评论

22 人气

关注发私信

友情链接

文江博客

使用 Python 编码东亚语言

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

金兰素衣

ゃ人海孤独症

没有感情的刽子手

一枫情书

清晰传感

mb_XvqQsWhl

友情链接

使用 Python 编码东亚语言

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

金兰素衣

ゃ人海孤独症

没有感情的刽子手

一枫情书

清晰传感

mb_XvqQsWhl

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。