当前位置：文江博客话题详情

如何在Python中编码/解码转义序列字符

发布于 2024-08-21 19:24:15 字数 152 浏览 4 评论 0原文

如何将 python 中的转义序列字符 '\x13' 编码/解码为 RSS 或 XML 中有效的字符。

用例是，我从任意来源获取数据并为该数据制作 RSS 提要。数据源有时具有转义序列字符，这会破坏我的 RSS 提要。

那么如何使用转义序列字符清理输入数据。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

七颜 2024-08-28 19:24:15

\x13 (ASCII 19, 'DC3') 无法转义；它在 XML 1.0 中是无效的。您可以包含一个，在 XML 1.1 中编码为或，但随后您必须包含声明，许多工具不喜欢它。

我不知道为什么该字符会包含在您的数据中，但前进的方向可能是完全删除控制代码。例如：

re.sub('[\x00-\x08\x0B-\x1F]', '', s)

对于某些类型的转义序列（例如 ANSI 颜色代码），您可能会在其中得到杂散（非控制）字符，在这种情况下，您可能需要针对该特定格式的自定义解析器。

\x13 (ASCII 19, ‘DC3’) can't be escaped; it is invalid in XML 1.0, period. You can include one, encoded as or in XML 1.1, but then you have to include the <?xml version="1.1"?> declaration and many tools won't like it.

I've no idea why that character would be included in your data, but the way forward is probably to completely remove control codes. For example:

re.sub('[\x00-\x08\x0B-\x1F]', '', s)

For some kinds of escape sequence (eg. ANSI colour codes) you might get stray (non-control) characters still in there, in which case you'd probably want a custom parser for that particular format.

回复收藏 0 原文

~没有更多了~