使用lxml解析带有日语的xml

发布于 2025-01-06 17:39:14 字数 570 浏览 3 评论 0原文

我有以下 xml 文档：

<package>
    <title>セレニティー (字幕版)</title> 
    ... 
</package>

我使用 lxml 来解析标题，如下所示：

node = etree.fromstring(file_contents)
title = node.xpath("//t:title/text()")
title
[u' \u30bb\u30ec\u30cb\u30c6\u30a3\u30fc (\u5b57\u5e55\u7248)']

但是，当我使用 title.encode(utf INSERT 到我的数据库中时-8)，我得到了一些乱码：

ã‚»ã¡¡¡¡¡¤¤†ã‚£ãς⁄ (å—å¤•çªˆ)

我将如何正确解析 标题在这里(セrenティー (字幕版))，这样我就可以对值进行INSERT。

原文

I have the following xml document:

<package>
    <title>セレニティー (字幕版)</title> 
    ... 
</package>

I am using lxml to parse the title as follows:

node = etree.fromstring(file_contents)
title = node.xpath("//t:title/text()")
title
[u' \u30bb\u30ec\u30cb\u30c6\u30a3\u30fc (\u5b57\u5e55\u7248)']

However, when I INSERT this into my database using title.encode(utf-8), I get gibberish:

ã‚»ãƒ¬ãƒ‹ãƒ†ã‚£ãƒ¼ (å—å¹•ç‰ˆ)

How would I correctly parse the title here (セレニティー (字幕版)), so I can do an INSERT of the value.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

痴情换悲伤 2025-01-13 17:39:14

确保您的 MySQL 实例也设置为将 Unicode 存储为 UTF-8。

回复收藏 0 原文

远昼 2025-01-13 17:39:14

实际上，这对我来说是 lxml 本身的一个问题，他们假设每个人都会默认使用 ASCII/Latin-1，这是愚蠢的。即使尝试以 UTF-8 运行解析器也可能会返回错误，请尝试像这样调用解析器：

解析器 = etree.HTMLParser(encoding='shift-jis')

据我所知，Shift-JIS 仍然是日语页面最常见的字符集。我的 Python/lxml 模块 http://github.com/caio1982/Amazon-Wishlist 适用于日语使用上述内容的页面。

回复收藏 0 原文

~没有更多了~

关于作者

哑剧

暂无简介

文章

628 人气

关注发私信

十二

文章 0 评论 0

关注

飞烟轻若梦

文章 0 评论 0

关注

OPleyuhuo

文章 0 评论 0

关注

wxb0109

文章 0 评论 0

关注

旧城空念

文章 0 评论 0

关注

-小熊_

文章 0 评论 0

友情链接

文江博客

使用lxml解析带有日语的xml

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

使用lxml解析带有日语的xml

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。