web-scraping

web-scraping

文章 0 浏览 4

如何从 Django/Python 中的 XML 标签之间的 XML 文档中提取数据?

我有一个外部 xml 文件,正在我的 views.py 文件中加载 def test(request): url = urllib2.urlopen("http://someurl.com?xml") dom = minidom.parse(u…

俯瞰星空 2024-12-05 00:45:28 0 0

YQL“当前表已被阻塞”

我正在尝试查询我自己编写的 YQL 表。如果我从 YQL 控制台运行该表,一切正常。但是,如果我通过浏览器或应用程序通过 URL 调用该表,则会出现以下错…

思念绕指尖 2024-12-04 22:45:08 1 0

在 JavaScript 中模拟人类点击

我有一个小刮刀,我需要使用 JavaScript 单击锚链接。我尝试了几种方法:jQuery.click()、document.createEvent('MouseEvents')等。它们都有效,但并…

孤独患者 2024-12-04 20:57:09 1 0

如何使用 C# 从 html 页面中抓取文本?

我有一个网页,导航到该网页时仅返回一个简单的文本值,例如数字 100。我需要从该页面获取该值,以便我可以在我的应用程序中使用它。该应用程序是一个…

太傻旳人生 2024-12-03 16:42:20 1 0

使用 PySide 调用插槽时出错

我正在尝试抓取一个依赖 JavaScript 的网站。这是一个非常基本的网站,有一个简单的整体列表(实际上是城市名称),我不想将其复制并粘贴到 Excel 中…

帅冕 2024-12-03 13:15:43 2 0

如何“刮”?来自页面源的内容?

Closed. This question needs to be more focused. It is not currently accepting answers. 想要改进这个问题?通过编辑这篇文章来更新问题,使其仅…

木緿 2024-12-03 08:00:10 0 0

在 Python 中运行基本 Web Scrape 时出现索引错误

我正在使用Python 2.7。当我尝试运行此代码时,当函数命中 print findPatTitle[i] 时出现问题,并且 python 返回“索引错误:列表索引超出范围”。我…

初相遇 2024-12-03 05:43:41 0 0

爬取维基百科

我正在使用 Windows 网站下载器来爬行维基百科,我正在查看此工具中的整个选项,以找到下载特定时期(例如从 2005 年至今)维基百科页面的选项。 有人…

旧竹 2024-12-03 03:32:42 0 0

anemone 忽略包含特定短语的 url 链接

我正在 ruby​​ 上运行带有 anemone 的网络抓取工具,当服务器访问需要登录的页面时,我给服务器带来了一些问题。 这些页面的网址中都有一个短语,例…

静赏你的温柔 2024-12-02 21:51:37 0 0

如何使用公共API?

Closed. This question is off-topic. It is not currently accepting answers. 想要改进此问题吗?更新问题,使其关于- Stack Overflow 的主题。 13…

岁月无声 2024-12-02 12:44:49 1 0

为什么我的程序只能获取部分网页源码?

我有一个程序可以提取网页的源代码并将其保存到 .txt 文件中。如果一次只完成一个,它就可以工作,但是当我突然浏览 100 个页面的循环时,每个页面源…

梦行七里 2024-12-02 11:37:22 0 0

从网站收集特定信息并将其显示在我的网站上

我在这个领域仍然是一个新手,但我已经搜索了很长时间并且似乎找不到任何东西,所以这里的任何帮助将不胜感激。 基本上,我有一个体育 WordPress 网站…

掩耳倾听 2024-12-02 09:52:38 0 0

Beautifulsoup 网络抓取问题

我正在使用 BeautifulSoup 和 mechanise 从网页中查找一些内容。问题是有时找不到我正在寻找的字符串。我不知道可能出现什么问题 对于许多网页来说,…

提笔书几行 2024-12-02 05:06:41 0 0

关于如何识别页面的主要内容有什么想法吗?

如果您必须识别页面的主要文本(例如在博客页面上识别帖子的内容)您会做什么?您认为最简单的方法是什么? 使用 cURL 获取页面内容 也许使用 DOM 解…

随遇而安 2024-12-01 21:59:10 0 0

Html Agility Pack C#:表达式必须计算为节点集

我正在使用 Html Agility Pack 来获取网页。 我想收集我正在寻找的以下形式的所有文本: 我尝试了这段代码: var web = new HtmlWeb(); var doc = web…

带刺的爱情 2024-12-01 20:57:20 1 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文