当前位置：文江博客话题详情

SEO Python urlencode

中文URL的编码问题

发布于 2022-08-25 00:07:06 字数 437 浏览 11 评论 0

在自己的网站中(基于tornado)，如果URL中含有中文，没有urlencode的话，搜索引擎爬过来会出现decode的异常：

UnicodeDecodeError: 'utf8' codec can't decode byte 0xe5 in position 6: invalid continuation byte

如果是urlencode过的便可以正常解析。但是，我发现豆瓣的tag好多也都是没有urlencode的URL（如下图），请问这样不会出现问题吗？

Screen-Shot-2012-12-24-at-上午10.46.49.png

可以在nginx上做统一转换吗？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

我为君王 2022-09-01 00:07:06

把代码的编码格式换成utf8试试

人间不值得 2022-09-01 00:07:06

如果使用urllib2，可以用下面的方法进行encode

urllib2.quote(s.encode("utf-8"))

箜明 2022-09-01 00:07:06

网页里可以这样写是因为浏览器会自动用UTF-8或者当前页面的编码来对URL编码。你用HTTP抓包工具看一下，可以看到发给服务器的URL实际上是经过编码的，类似于这样：

http://movie.douban.com/tag/%E7%BE%8E%E5%9B%BD

服务器收到的已经是编码过的URL了。

至于爬虫会怎么处理这样的URL，那就得看各家公司怎么实现了。至少Google的爬虫应该足够智能，会自动替你做URL编码。

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

22 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

留蓝

文章 0 评论 0

18790681156

文章 0 评论 0

zach7772

文章 0 评论 0

Wini

文章 0 评论 0

ayeshaaroy

文章 0 评论 0

初雪

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文