爬虫,正则。requests从网站正则拿&# 32034; &# 23612; 拿不到。。

发布于 2022-09-05 08:01:36 字数 992 浏览 28 评论 0

假设网站是

https://www.amazon.co.jp/Dell...

然后在源码里面有

id="productTitle"

我用requests去取源码

requests.get(url)

源码里面

clipboard.png

我怎么用re去正则都拿不到。。。崩溃啊。。
求助大神们。。。这玩意要怎么拿?

PS:
这一串码写到html里面。就直接转码了。。这是什么情况?有什么规则吗?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

要走就滚别墨迹 2022-09-12 08:01:36

建议使用 BeautifulSoup

import requests
from bs4 import BeautifulSoup


r =requests.get('https://www.amazon.co.jp/Dell-%E3%82%B2%E3%83%BC%E3%83%9F%E3%83%B3%E3%82%B0%E3%83%8E%E3%83%BC%E3%83%88%E3%83%91%E3%82%BD%E3%82%B3%E3%83%B3-ALIENWARE-17-18Q12/dp/B06XZT4NV9/ref=sr_1_1?s=computers&ie=UTF8&qid=1501419923&sr=1-1&keywords=Dell+%E3%82%B2%E3%83%BC%E3%83%9F%E3%83%B3%E3%82%B0%E3%83%8E%E3%83%BC%E3%83%88%E3%83%91%E3%82%BD%E3%82%B3%E3%83%B3+ALIENWARE+17+4K%E3%83%A2%E3%83%87%E3%83%AB+18Q12%2FWin10%2F17.3UHD%2F32GB%2F512GB+SSD%2B1TB%2FGeForce+GTX1080')

t = r.text

soup = BeautifulSoup(t, "html.parser")

i = soup.find(id='productTitle')

text = i.text.strip()

非得使用正则表达式的话

import requests
import re


r =requests.get('https://www.amazon.co.jp/Dell-%E3%82%B2%E3%83%BC%E3%83%9F%E3%83%B3%E3%82%B0%E3%83%8E%E3%83%BC%E3%83%88%E3%83%91%E3%82%BD%E3%82%B3%E3%83%B3-ALIENWARE-17-18Q12/dp/B06XZT4NV9/ref=sr_1_1?s=computers&ie=UTF8&qid=1501419923&sr=1-1&keywords=Dell+%E3%82%B2%E3%83%BC%E3%83%9F%E3%83%B3%E3%82%B0%E3%83%8E%E3%83%BC%E3%83%88%E3%83%91%E3%82%BD%E3%82%B3%E3%83%B3+ALIENWARE+17+4K%E3%83%A2%E3%83%87%E3%83%AB+18Q12%2FWin10%2F17.3UHD%2F32GB%2F512GB+SSD%2B1TB%2FGeForce+GTX1080')

t = r.text

regex = re.compile(r'<div id="titleSection".*?">.*?<.*?>.*?<.*?>\s*(.*?)\s*</span>', re.S)

text = regex.findall(t)[0]

(以上代码在 Python3 中测试通过)

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文