第 21 页 - web-scraping

投稿关注

web-scraping

文章 0 浏览 7

使用多处理和列表理解非常慢的python Webscraping

我尝试使用BS4刮擦网站。但是该代码非常慢，因为有很多tr可以接一个地获得。我尝试了循环，但要花费3分钟以上的时间来刮擦3000 TR（1000行）： ROWS …

陌伤ぢ 2025-02-06 18:25:51 2 0

如果其他语句以Pythonic的方式为真，则如何在尝试块中使用（如果）在尝试块中的其他路由？

我有一个连接到网页的刮板函数，并检查响应代码（200罚款中的任何东西，其他任何不正常）。当连接具有连接误差或sslerror时，该函数会重新检测该连接…

Hello爱情风 2025-02-06 18:08:35 4 0

如何在新更新的Google Play商店中刮擦应用程序类别

from bs4 import BeautifulSoup import requests url='https://play.google.com/store/apps/details?id=com.Shooter.ModernWarships' req=requests.ge…

oО清风挽发oО 2025-02-06 17:33:02 2 0

带有rvest的r scrape表（iframe问题？）

我想使用rvest在网站上刮擦一张桌子。我可以在页面上刮擦几个元素，但该表中的表也不是元素。我怀疑这与表是“ iframe”有关的事情，但是到目前为止，…

盗梦空间 2025-02-06 17:01:25 1 0

URL和HTML Inspect提供不同的结果

当我复制Facebook页面的URL并创建一个美丽的对象时，它给了我一个文本，实际上并不是页面上的帖子。即 text = requests.get('https://www.facebook.co…

请恋爱 2025-02-06 15:49:08 2 0

为什么硒打开的页面与常规浏览器不同

我在TripAdvisor上练习数据刮擦，我不明白为什么列表中的倒数第二项（项目29）具有其中最后一项的链接。链接列表：您可以在图片中看到检查元素的链接…

嘿咻 2025-02-06 15:46:22 2 0

刮擦网络信息

我正在尝试从网站上刮擦信息，并将其保存到CSV格式中。但是，即使我从网站得到回复，我也无法将任何数据检索到Excel中。我回来的只是我的标题，上面有…

原来分手还会想你 2025-02-06 15:33:24 1 0

有条件地删除InporthTML数据输出中的行

=ARRAYFORMULA(IFERROR( substitute(IMPORTHTML("https://niftyinvest.com/option-chain/"&D2&"?expiry="&$B$2,"Table",1),"*","")*1, substitute(IMP…

四叶草在未来唯美盛开 2025-02-06 14:59:32 4 0

如何在Web-Scred CSV文件的单元格中提取一些内容？

我正在努力处理一个刮擦一个众筹网站的CSV文件。我的目标是成功地加载所有信息作为单独的列，但是当我使用1）R，2）Stata和3）Python时发现一些信息…

女皇必胜 2025-02-06 14:33:28 3 0

硒 - 下拉菜单

我正在尝试刮擦本网站上生成的电子表格： htttps：httpps：//sisaps.saude.saude.saude。 gov.br/sisvan/relatoriopublico/index 首先，您需要在顶部…

就此别过 2025-02-06 13:04:28 5 0

如何用Unirest和Cheerio刮擦Google图像？

我正在尝试使用Unirest和Cheerio刮擦Google图像，但是当我发现解析无法正确进行时，我就卡住了。这是我目前的代码： const unirest = require("unire…

ぺ禁宫浮华殁 2025-02-06 12:49:09 3 0

ResponseException：尝试用Praw刮擦Reddit数据时接收到401 HTTP响应 - 如何进行身份验证？

我正在尝试从创建的应用程序中刮除一些Reddit数据，后来我想将它们输入到DataFrame PR CSV文件中。我不断收到以下错误： ResponseException: received…

薆情海 2025-02-06 12:22:40 2 0

如何迭代链接并在特定位置上访问一个链接？

我正在从事一项作业，需要使用Beautifulsoup来解析此任务： http：// python -data.dr-chuck.net/nown_by_fikret.html 基本上，我需要打印初始URL并在…

原谅过去的我 2025-02-06 12:19:43 1 0

可以弄清楚如何用美丽的小组刮擦ID

试图用ID刮擦网站，但我不知道如何修复它： from bs4 import BeautifulSoup import requests url= "Website" page= requests.get(url) soup = Beautif…

罪歌 2025-02-06 12:14:14 1 0

无法找到“接受”按钮 - 硒 - 初学者网络刮擦

我正在尝试使用硒来学习不同的网络刮擦方式。当执行代码时，Firefox启动并“接受cookie”或弹出的内容。在检查页面时，我无法找到“接受”按钮。到…

情话难免假 2025-02-06 12:12:42 2 0

Mr.HU

文章 0 评论 0

关注

疯到世界奔溃

文章 0 评论 0

关注

隔纱相望

文章 0 评论 0

关注

萌无敌

文章 0 评论 0

关注

梦幻的味道

文章 0 评论 0

关注

自在安然

文章 0 评论 0

友情链接

文江博客

web-scraping

使用多处理和列表理解非常慢的python Webscraping

如果其他语句以Pythonic的方式为真，则如何在尝试块中使用（如果）在尝试块中的其他路由？

如何在新更新的Google Play商店中刮擦应用程序类别

带有rvest的r scrape表（iframe问题？）

URL和HTML Inspect提供不同的结果

为什么硒打开的页面与常规浏览器不同

刮擦网络信息

有条件地删除InporthTML数据输出中的行

如何在Web-Scred CSV文件的单元格中提取一些内容？

硒 - 下拉菜单

如何用Unirest和Cheerio刮擦Google图像？

ResponseException：尝试用Praw刮擦Reddit数据时接收到401 HTTP响应 - 如何进行身份验证？

如何迭代链接并在特定位置上访问一个链接？

可以弄清楚如何用美丽的小组刮擦ID

无法找到“接受”按钮 - 硒 - 初学者网络刮擦

热门标签

推荐作者

Mr.HU

疯到世界奔溃

隔纱相望

萌无敌

梦幻的味道

自在安然

友情链接