如何检查文字是否在Python中是日本的Hiragana?
我正在使用Python scrapy进行网络爬行者,从网站上收集文字。 我只想收集日本的希拉加纳文字。是否有解决日本希拉加纳文本的解决方案?…
使用零食时,如何获得特殊文本,例如斜体样式文本或大胆的样式文本?
我要编写一个蜘蛛,该蜘蛛获得了“ {name:xxx,description:yyy}”形式的数据结构。 我的目标网站是 https://en.wikipedia.org/wiki/apple 如下: …
使用异步方法(crawler)问题捕获HREF链接
我的问题是我对此功能没有结果。实际上,在我的CSV文件或列表中,我没有值。我发现问题来自行:if(htmldocument!= null&& htmldocument.d…
我如何从< font>获得/刮擦数据。在html中标记
网站链接: https://www.jobup.ch/en/new/new-vacancies/ 大家好,我正在上述工作网站上工作,从我想废除作业数据,但是工作URL在标签中,我尝试了其…
如何在此Web搜寻器中添加超时?
我想使用请求和ThreadPoolExecutor制作Web搜寻器。我的问题是,即使在循环中,我也进行了某种超时,该程序也不会停止。 def StartCrawler(base_link, …
第一个python scrapy scraper不起作用
我使用Python课程进行了数据训练Web刮擦,并试图在我自己的环境中运行“ Capstone”网络刮板(该课程在特殊的浏览器环境中进行)。该代码旨在从数据训…
下载 M3u8 但它是 jpg 文件而不是 ts
我发现网站上有一些视频。 我得到了M3U8文件。 但里面全是jpg。 如何将其转换为视频文件? m3u8 #EXTM3U #EXT-X-VERSION:3 #EXT-X-MEDIA-SEQUENCE:0 #…
json.decoder.JSONDecodeError:期望值:第1行第1列(字符0)Scrapy
大家好,我正在尝试使用 scrapy/Beautifulsoup 来废弃/抓取这个基于 json 的网站 https://pk.profdir.com/jobs-for-angular-developer-lahore-punjab-…
添加 Selenium ChromeOptions 时无法访问代码
由于某种原因,我的Python代码在添加一系列WebDriver选项后显示为无法实现。有人知道为什么会发生这种情况以及如何解决吗? 代码本身如下: class Dri…
Scrapy CrawlSpider 爬行,但不解析任何项目
我正在尝试收集有关杂货中出售的所有产品的信息。我有一些刮擦类似网站的经验,并使用了爬网轴进行操作。 当我运行蜘蛛时,似乎在整个网站上爬行,但…
问:无法通过 python 中的 chorme web 驱动程序持续单击按钮
问题: 如何通过点击“显示更多评论”按钮来显示所有评论? 我做了什么: 为了抓取所有评论,我决定继续点击直到该按钮消失。 但有些新评论点击8次后…
使用 Selenium 获取 IG 关注者未返回所有结果(缺少一些关注者)
我正在尝试使用 Selenium 抓取我的 IG 关注者列表。我已经成功登录,打开关注者选项卡并滚动到底部(以便加载所有关注者)。一切正常,一切都已加载,…