Python/Scrapy 问题:如何获得更清晰的结果?

发布于 2024-11-18 13:28:52 字数 223 浏览 3 评论 0原文

我的项目任务是对网站上的特定名称进行数据挖掘。我对 python 的经验不高。当我抓取所有名字时,它们以这种格式出现:

[u'Bob Joe']
[你蒂姆·汤姆]
[你安妮·弗兰克]
[u'superman']

我怎样才能清理这些值? “u”代表什么?难道是我的xpath错误?我是否必须在 scrapy 管道中清理它(我想避免这种情况)?我只想要名字而不是周围多余的垃圾。

My task for a project is to data mine a website for specific names. My experience with python isn't high. When I scraped all the names, they come out in this format:

[u'Bob Joe']
[u'Tim Tom']
[u'Anne Frank']
[u'superman']

How can I clean up these values? What does the 'u' signify? Is my xpath wrong? Would I have to clean it up in a scrapy pipeline (I'd like to avoid this)? I just want the names and not the extra junk around it.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

如梦初醒的夏天 2024-11-25 13:28:52

在 Python 2 中,“u”前缀表示它是一个 Unicode 字符串。 [u'Bob Joe'] 是包含 Unicode 字符串的列表。

In Python 2, the 'u' prefix indicates that it's a Unicode string. [u'Bob Joe'] is a list containing a Unicode string.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文