字符串/HTML 的清理和剥离 - Python

发布于 2024-09-30 08:55:37 字数 544 浏览 8 评论 0原文

我有一系列问题，但我没有答案。

1) 剥离字符串列表

input:
'item1,   item2, \t\t\t item3, \n\n\n \t, item4, , , item5, '

output:
['item1', 'item2', 'item3', 'item4', 'item5']

还有比执行以下操作更有效的方法吗？

[x.strip() for x in l.split(',') if x.strip()]

2) 清理/清理 HTML

保留基本标签，例如 Strong、p、br , ...

删除恶意 javascript、css 和 div

3) Unicode 处理...

对于处理文档中解析的 unicode，您有何建议？

有什么想法吗？ :) 谢谢大家！

原文

I have a set of questions, of which I do not have an answer to.

1) Stripping lists of string

input:
'item1,   item2, \t\t\t item3, \n\n\n \t, item4, , , item5, '

output:
['item1', 'item2', 'item3', 'item4', 'item5']

Anything more efficient than doing the following?

[x.strip() for x in l.split(',') if x.strip()]

2) Cleaning/Sanitizing HTML

keeping basic tags e.g. strong, p, br, ...

removing malicious javascript, css and divs

3) Unicode handling...

what would you recommend for dealing with unicode parsed within documents?

Any ideas? :) Thanks guys!

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

暗喜 2024-10-07 08:55:37

要清理 HTML，请使用 lxml.html

import lxml.html
text = lxml.html.fromstring("...")
text.text_content()

To clean HTML use lxml.html

import lxml.html
text = lxml.html.fromstring("...")
text.text_content()

回复收藏 0 原文

风流物 2024-10-07 08:55:37

对于第一个，您可以使用 split 然后列表理解来修剪多余的空格：

result = [x.strip() for x in i.split(',')]

并从列表中删除空字符串：

result = [x for x in result if x]

For the first one you can use split then a list comprehension to trim the extra whitespace:

result = [x.strip() for x in i.split(',')]

And to remove the empty strings from the list:

result = [x for x in result if x]

回复收藏 0 原文

梦巷 2024-10-07 08:55:37

我倾向于编写多个级联生成器，特别是如果我希望某些输出成为测试的一部分：

stripped_iter = (x.strip() for x in l.split(','))
non_empty_iter = (x for x in stripped_iter if x)

灵感来自 Beazley 的关于协程的演示。

I tend to write multiple cascading generators, particularly if I want to some output to be part of a test:

stripped_iter = (x.strip() for x in l.split(','))
non_empty_iter = (x for x in stripped_iter if x)

The inspiration is Beazley's presentation on coroutines.

回复收藏 0 原文

茶底世界 2024-10-07 08:55:37

我是 python Web 开发的初学者，但对于清理/清理 html，我发现 markdown2 库有一些非常好的功能。您可以将其与 MarkItUp! 基于 jQuery 的编辑器一起使用。它们可能无法解决您的所有问题，但可能会帮助您在短时间内完成大量工作。

回复收藏 0 原文

梦里泪两行 2024-10-07 08:55:37

1) 您可以使用 strip 方法

2) 您可以使用 sanitize ， http://wonko.com/post/sanitize< /a>

3) 这里有一些 unicode 提示： http: //blog.trydionel.com/2010/03/23/some-unicode-tips-for-ruby/

回复收藏 0 原文

泛滥成性 2024-10-07 08:55:37

1) [j.strip() for j in a.split(',') if j.strip()]

2) 检查整洁

回复收藏 0 原文

~没有更多了~

关于作者

羁客

暂无简介

文章

24 人气

关注发私信

尘曦

文章 0 评论 0

关注

在梵高的星空下

文章 0 评论 0

关注

善良天后

文章 0 评论 0

关注

韬韬不绝

文章 0 评论 0

关注

qq_CgiN62

文章 0 评论 0

关注

不美如何

文章 0 评论 0

友情链接

文江博客

字符串/HTML 的清理和剥离 - Python

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

尘曦

在梵高的星空下

善良天后

韬韬不绝

qq_CgiN62

不美如何

友情链接

字符串/HTML 的清理和剥离 - Python

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

尘曦

在梵高的星空下

善良天后

韬韬不绝

qq_CgiN62

不美如何

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。