如果第 2、3、4 页都具有相同的 URL,我如何解析该网站的所有 400 个 francis?
我正在对网站进行网络报废 https://www.franchisetimes.com/top-400- 2021/,我需要在每个特许经营权内抓取数据,我正在构建主体(尚未进行实际的废弃),但无法解析任何内容超越特许经营#25,我不知道如何推进下一页。
预先感谢您的意见和建议。
所以我被困在这里:
from bs4 import BeautifulSoup as bs
import requests
DOMAIN = 'https://www.franchisetimes.com'
URL = 'https://www.franchisetimes.com/top-400-2021/'
FILETYPE = '.html'
def get_soup(URL):
return bs(requests.get(url).text, 'html.parser')
#get_soup(DOMAIN)
i=0
for link in get_soup(URL).find_all('a'):
file_link = link.get('href')
try:
if "top-400-2021" in file_link and not "block_id" in file_link and FILETYPE in file_link:
i += 1
print(file_link)
print(i)
except:
print("nonetype")
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
它使用javaScript从
https://www.franchisetimes.com/search/?bl=1111254& amp; amp; amp; amp;l=25& f = json& altf =
widget 代码>在
中firefox
/chrome
(TAB:网络
,filter:xhr
)如果使用
o o = 25
而不是o = 0
然后,如果您使用o = 50
,则获得第二页的JSON数据,然后在第三页上等等。:
结果 。
It uses JavaScript to load JSON data from
https://www.franchisetimes.com/search/?bl=1111254&o=0&l=25&f=json&altf=widget
(I found it using
DevTools
inFirefox
/Chrome
(tab:network
, filter:XHR
)If you use
o=25
instead ofo=0
then you get JSON data for second page, if you useo=50
then for third page, etc.Result:
etc.
If you display
data['assets'][0].keys()
then you see what else you get in dataFor example: