Python/Scrapy 问题:如何获得更清晰的结果?
我的项目任务是对网站上的特定名称进行数据挖掘。我对 python 的经验不高。当我抓取所有名字时,它们以这种格式出现:
[u'Bob Joe']
[你蒂姆·汤姆]
[你安妮·弗兰克]
[u'superman']
我怎样才能清理这些值? “u”代表什么?难道是我的xpath错误?我是否必须在 scrapy 管道中清理它(我想避免这种情况)?我只想要名字而不是周围多余的垃圾。
My task for a project is to data mine a website for specific names. My experience with python isn't high. When I scraped all the names, they come out in this format:
[u'Bob Joe']
[u'Tim Tom']
[u'Anne Frank']
[u'superman']
How can I clean up these values? What does the 'u' signify? Is my xpath wrong? Would I have to clean it up in a scrapy pipeline (I'd like to avoid this)? I just want the names and not the extra junk around it.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
在 Python 2 中,“u”前缀表示它是一个 Unicode 字符串。
[u'Bob Joe']
是包含 Unicode 字符串的列表。In Python 2, the 'u' prefix indicates that it's a Unicode string.
[u'Bob Joe']
is a list containing a Unicode string.