C# - 使用Web浏览器刮擦遇到问题
我一直在尝试使用Bing搜索引擎制作Web刮板工具,以获取所有Pastebin URL。 我通过使用Web浏览器并让JavaScript运行,然后刮擦所有源来做到这一点。 st…
滚动在使用Puppeteer刮擦Google地图时不起作用
我正在抓取Google Maps的数据,但是发生的事情是,它仅返回了我的前10个结果,而不是在此之后返回。我认为滚动功能存在一些问题。 const puppeteer = …
达到某个标签后,如何停止find_next_sibling()?
我正在抓取Athletic.net,这是一个存储田径时间的网站。到目前为止,我已经打印了事件标题和时间,但是我的输出始终包含那个季节的所有时间,而不仅仅…
有没有办法一次进行多个不同的字符串更换?
由于我们被排除在使用任何网络报废库之外 def print_ticket(): if event.get() == 1: web_page = urlopen(url1) html_code = web_page.read().decode(…
很难区分URL中的网络刮擦数据与棒球 - reference的数据
def getURL(playerName): begURL = 'https://www.baseball-reference.com/players/' names = playerName.split() letter = names[1][0].lower() midUR…
如何修复“ ConnectionReseterror”和&quort“ aiohttp.client_exceptions.clientConnectorError”在使用Asyncio和AioHTTP的网络刮擦时?
我正在学习使用Asyncio和AioHTTP的网络刮擦。刮板似乎工作了几次,然后显示了多次尝试的一些错误,然后再次工作。相同的URL每次都会在浏览器中正常打…
如何从注释块中刮擦数据并创建数据框架?
我正在尝试从baseball-reference.com获取HTML数据。我认为要访问他们的网站,查看页面源,HTML标签将在HTML代码本身内。但是,经过进一步的调查,我关…
Python Beautifulsoup Wikipedia Webscapping-学习
我正在学习Python和Beautifulsoup, 我正在尝试进行一些Webscraping: 让我首先描述我想做的是吗? Wiki页面: https:// https://en.m.m.m.wikipedia…
如何从App Store中选择应用程序的所有链接并提取其HREF?
from bs4 import BeautifulSoup import requests from urllib.request import urlopen url = f'https://www.apple.com/kr/search/youtube?src=globaln…
如何用a< b>在特定标签中包装初始字母??
我正在尝试使用python使用 Beautifulsoup 模块来执行以下操作: 在html的Div中,对于每个段落标签,我想在段落中的每个单词的第一个字母中添加一个粗…
随着时间的推移递归递归回调
我想刮擦一个网站,该网站每5分钟删除给定网页的信息。我通过在递归回调之间添加5分钟的睡眠时间来实现这一点,但是 def _parse(self, response): sta…
我如何筛选各种' a'刮去网站时的标签?
我试图刮擦一个存储田径时间的网站,以获取每个赛季的给定运动员的清单,他们参加的每个活动以及每次活动时的每次。 到目前为止,我已经打印了季节的…
使用硒和多线程时,如何将刮擦数据保存到CSV文件中?
我试图用硒来刮擦许多URL的当前时间。我将名称,价格和时间附加到三个不同的列表中,将其放入字典中,然后将其保存到CSV文件中。为了提高刮擦速度,我…
相对于同一标签不刮擦的多个值
我的“房间数”和“房间”搜索没有值。 https://www.zoopla.co.uk/property/uprn/906032139/ 我可以在这里看到我应该返回一些东西,但没有得到任何东…