解析网页时,无法从iframe(内部HTML页面)提取/加载所有HREF
我真的在为这种情况而苦苦挣扎,并且整天都在尝试。请我需要您的帮助。我正在尝试刮擦此网页: 我想获得所有137 HREF-S(137个文档)。 使用的代码L:
def test(self):
final_url = 'https://decisions.scc-csc.ca/scc-csc/en/d/s/index.do?cont=&ref=&d1=2012-01-01&d2=2022-01-31&p=&col=1&su=16&or='
self.driver.get(final_url)
soup = BeautifulSoup(self.driver.page_source, 'html.parser')
iframes = soup.find('iframe')
src = iframes['src']
base = 'https://decisions.scc-csc.ca/'
main_url = urljoin(base, src)
self.driver.get((main_url))
browser = self.driver
elem = browser.find_element_by_tag_name("body")
no_of_pagedowns = 20
while no_of_pagedowns:
elem.send_keys(Keys.PAGE_DOWN)
time.sleep(0.2)
no_of_pagedowns -= 1
问题在于它仅加载25个第一文档(HREF),并且不知道该怎么做。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
此代码向下滚动,直到可见所有元素,然后将PDF的URL保存在列表
pdfs
中。请注意,所有工作都是用硒完成的,而无需使用美丽的套件This code scrolls down until all elements are visible, then save the urls of the pdfs in the list
pdfs
. Notice that all the work is done with selenium, without using BeautifulSoup