当前位置：文江博客话题详情

正则表达式 Scrapy Unicode python3.x 转码

爬虫，正则。requests从网站正则拿&# 32034; &# 23612; 拿不到。。

发布于 2022-09-05 08:01:36 字数 992 浏览 32 评论 0

假设网站是

https://www.amazon.co.jp/Dell...

然后在源码里面有

id="productTitle"

我用requests去取源码

requests.get(url)

源码里面

我怎么用re去正则都拿不到。。。崩溃啊。。
求助大神们。。。这玩意要怎么拿？

PS:
这一串码写到html里面。就直接转码了。。这是什么情况？有什么规则吗？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

要走就滚别墨迹 2022-09-12 08:01:36

建议使用 BeautifulSoup

import requests
from bs4 import BeautifulSoup


r =requests.get('https://www.amazon.co.jp/Dell-%E3%82%B2%E3%83%BC%E3%83%9F%E3%83%B3%E3%82%B0%E3%83%8E%E3%83%BC%E3%83%88%E3%83%91%E3%82%BD%E3%82%B3%E3%83%B3-ALIENWARE-17-18Q12/dp/B06XZT4NV9/ref=sr_1_1?s=computers&ie=UTF8&qid=1501419923&sr=1-1&keywords=Dell+%E3%82%B2%E3%83%BC%E3%83%9F%E3%83%B3%E3%82%B0%E3%83%8E%E3%83%BC%E3%83%88%E3%83%91%E3%82%BD%E3%82%B3%E3%83%B3+ALIENWARE+17+4K%E3%83%A2%E3%83%87%E3%83%AB+18Q12%2FWin10%2F17.3UHD%2F32GB%2F512GB+SSD%2B1TB%2FGeForce+GTX1080')

t = r.text

soup = BeautifulSoup(t, "html.parser")

i = soup.find(id='productTitle')

text = i.text.strip()

非得使用正则表达式的话

import requests
import re


r =requests.get('https://www.amazon.co.jp/Dell-%E3%82%B2%E3%83%BC%E3%83%9F%E3%83%B3%E3%82%B0%E3%83%8E%E3%83%BC%E3%83%88%E3%83%91%E3%82%BD%E3%82%B3%E3%83%B3-ALIENWARE-17-18Q12/dp/B06XZT4NV9/ref=sr_1_1?s=computers&ie=UTF8&qid=1501419923&sr=1-1&keywords=Dell+%E3%82%B2%E3%83%BC%E3%83%9F%E3%83%B3%E3%82%B0%E3%83%8E%E3%83%BC%E3%83%88%E3%83%91%E3%82%BD%E3%82%B3%E3%83%B3+ALIENWARE+17+4K%E3%83%A2%E3%83%87%E3%83%AB+18Q12%2FWin10%2F17.3UHD%2F32GB%2F512GB+SSD%2B1TB%2FGeForce+GTX1080')

t = r.text

regex = re.compile(r'<div id="titleSection".*?">.*?<.*?>.*?<.*?>\s*(.*?)\s*</span>', re.S)

text = regex.findall(t)[0]

（以上代码在 Python3 中测试通过）

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

missyouangeled

文章 0 评论 0

三生一梦

文章 0 评论 0

压抑⊿情绪

文章 0 评论 0

天涯离梦残月幽梦

文章 0 评论 0

指尖微凉心微凉

文章 0 评论 0

☆獨立☆

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文