硒 - 迭代分页地点,有额外的随机数
我想刮擦的网站是分页的,但我不能仅迭代页面,因为每个下一页都有一些额外的随机数。
这是页面:
https://market.biset.burset.burset.bursnis.com/bursa-saham/2 /20220621181040 (第二页)
如果我只是更改(页面),则将导致空白页,这是我的代码,谢谢!
options = Options()
options.add_argument("start-maximized")
options.add_argument('--no-sandbox')
element_list = []
for page in range(1,3, 1):
page_url = "https://market.bisnis.com/bursa-saham/" + str(page)
driver = webdriver.Chrome("C:/Users/krish/Desktop/chromedriver_win32/chromedriver.exe", chrome_options=options,)
driver.get(page_url)
title = driver.find_elements(By.TAG_NAME, 'h2')
for i in range(len(title)):
element_list.append([title[i].text])
with xlsxwriter.Workbook('result2.xlsx') as workbook:
worksheet = workbook.add_worksheet()
for row_num, data in enumerate(element_list):
worksheet.write_row(row_num, 0, data)
driver.close()
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
而不是通过URL导航到下一页(我相信您不知道您不知道的日期和时间)尝试单击Next按钮:
PS也最好将
行从循环移出,以使用相同的浏览器实例进行刮擦所有页面
Instead of navigating to next page by URL (URL containing date and time which I believe you don't know in advance) try to click Next button:
P.S. Also you'd better move
line out from loop to use the same browser instance for scraping all the pages