web-scraping

web-scraping

文章 0 浏览 7

rvest html_table()使用第二行作为标头

我正在尝试从FBREF上的表中刮擦数据,但是表包含两个标头,将子标题合并到第一行数据中。有谁知道如何跳过第一行并将第二行用作表标头以维护数据类型…

左秋 2025-02-03 04:49:17 3 0

使用Python从GitHub爬网和下载readme.md文件

我正在尝试执行NLP任务。为此,我需要GitHub的大量readme.md文件。这是我要做的: 对于给定的编号 n ,我想根据其星星数量列出第一个 n github存储库…

世态炎凉 2025-02-03 04:41:28 1 0

我需要进行网络刮擦,以获取来自不同报纸的不同文章的链接

我需要进行网络刮擦,以获取来自不同报纸的不同文章的链接,并且我的代码对今天的新闻(来自Googlenews)都非常有效。但是,它不适用于较旧文章。例如…

铜锣湾横着走 2025-02-03 04:32:07 2 0

(剧作家Async)如何修复:' attributeError:' coroutine'对象没有属性' inner_text' '

我已经写了一个异步的剧作作者函数,但我不知道如何使用等待将此分配放入我的功能中。 这是导致我错误的代码行: country = await feedback.query_sel…

独自←快乐 2025-02-03 04:26:34 3 0

soup.select()返回一个空列表

我有一个。选择的问题,它总是在练习Webscrap的同时返回一个空列表。 我在以下页面上工作: https://presse.ania.net/news/news/? page = 1 使用Beau…

萌辣 2025-02-03 04:25:47 1 0

在无限卷轴上的页面上的刮擦蜘蛛

我正在尝试使用零工爬网蜘蛛在网站上遵循无限滚动的链接,从其遵循的URL中刮擦信息,然后继续遵循链接并刮擦信息。我已经为此找到了有关纸巾的建议,…

毁梦 2025-02-03 04:15:00 4 0

在< p&gt中获取text()元素与VBA/硒

使用Excel 2019 VBA,我正在尝试从具有此结构的网页上的段落中获取数据。 Release Date: " May 30th 2022" From: Title Performers: Name1, Name2, Na…

花心好男孩 2025-02-03 03:40:49 0 0

如何修复attributeError:resultset对象没有属性' get_text'

我试图根据星星从GitHub获取3D主题的顶级存储库。 topic_page_url = 'http://github.com/topics/3d' response = requests.get(topic_page_url) topic_…

澜川若宁 2025-02-03 01:53:39 1 0

将数据转换为JSON

我正在尝试将数据转换为JSON,但它们将提供此错误 JSON.DECODER.JSONDECODEERROR:额外数据:第1行36090(char 36089)我打印的其他额外数据,他们将…

甜点 2025-02-03 01:20:33 4 0

使用Cheerio时,我该如何获得HREF

我想在此代码中使用Cheerio时具有链接。 Link 我已经尝试过,但是它不起作用。 let link = $('.someClass a href').text(); …

人事已非 2025-02-03 00:55:03 4 0

AttributeError:' nonepy'对象没有属性'提取'

我试图从页面中排除DIV和NAV。第一次运行似乎很棒,但随后会引发错误。 从此页面: ​=“ nofollow noreferrer”> https://discuss.dizzycoding.com/e…

深白境迁sunset 2025-02-03 00:10:29 2 0

希望从投票网站上从交互式图中刮擦数据

我希望从该选民选区传输的数据点 -law-large-numbers-polls/“ rel =“ nofollow noreferrer”>网站。 所需图的照片 我收集数据的方法是通过检查 - &…

谁与争疯 2025-02-02 22:29:51 3 0

在Google DataFlow作业上安装Chromedriver

我想将刮擦的容器化Python应用程序迁移到可以在数据流上运行的Apache Beam Pipeline。我的刮擦应用程序使用2种刮擦方法:卷曲响应和硒铬。 在本地运行…

累赘 2025-02-02 22:24:35 4 0

从熊猫中的dataframe中删除\ xa0

我有一个NBA球队名称的列表,这些名称已加倍。如何使用\ xa0删除条目? 这是我得到的输出。 ['Atlanta Hawks', 'Atlanta Hawks\xa0', 'Boston Celtics…

妥活 2025-02-02 22:17:51 3 0

file_get_contents捕获403禁止错误

我有一个PHP文件,该文件通过代理服务器发出file_get_contents请求。有时,由于代理,我会得到403禁止错误响应,并且要用不同的代理重试相同的请求,…

黯淡〆 2025-02-02 22:11:21 3 0
更多

推荐作者

15077827184

文章 0 评论 0

遗失的美好

文章 0 评论 0

离不开的别离

文章 0 评论 0

3857621955

文章 0 评论 0

懒猫

文章 0 评论 0

洋洋洒洒

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文