screen-scraping

screen-scraping

文章 0 浏览 4

如何从 HTML 文件中提取所需的数据?

这是我的 HTML: p_tags = '''&ltp class="foo-body"&gt &ltfont class="test-proof"&gtFull name&lt/font&gt Foobar&ltbr /&gt &ltfont class="test-…

胡渣熟男 2024-07-14 07:54:11 9 0

使用 www::mechanize 时的 Iconv::IllegalSequence

我正在尝试进行一些网络抓取,但 WWW:Mechanize gem 似乎不喜欢编码并且崩溃。 post 请求导致 302 重定向(机械化遵循,到目前为止一切顺利),并且生…

巴黎盛开的樱花 2024-07-14 02:55:50 12 0

超快速的屏幕抓取技术?

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

未蓝澄海的烟 2024-07-14 01:17:48 5 0

计算 Twitter 上特定单词的结果数

为了进一步推进我的个人项目,我一直在思考如何计算 Twitter。 我广泛使用了他们的 API,但一直无法想出一种有效甚至半实用的方法来计算特定单词的出…

心如狂蝶 2024-07-14 00:52:30 8 0

使用selectorgadget.com 解析HTML 文件

我如何使用 beautiful soup 和 selectorgadget 来抓取网站。 例如,我有一个网站 - (newegg 产品) 并且我希望我的脚本返回该产品的所有规格(单击“…

半暖夏伤 2024-07-13 20:45:40 5 0

编写一个 C# 程序来扫描电子商务网站并提取产品图片 + 价格 + 他们的描述

我正在开发一个电子商务搜索引擎,可以让您在很多电子商务网站中搜索产品。 我该如何处理这个问题? 我需要一个能够扫描网站、解析 HTML 并确定网站中…

苦妄 2024-07-13 18:55:03 6 0

使用 PHP 和 XPath 进行屏幕抓取

有谁知道使用 XPath 提取数据时如何保持文本格式? 我目前正在提取所有块 标题 文本锚 来自页面。 问题是当我访问nodeValue时,我只能得到纯文本。 如…

ゞ花落谁相伴 2024-07-12 01:59:36 9 0

自动化课表优化爬虫?

总体规划 获取我的课程信息,自动优化并选择我的大学课程时间表 总体算法 使用其登录网站 Enterprise Sign On Engine 登录 查找我当前的学期及其 相关…

你丑哭了我 2024-07-12 01:43:42 10 0

提供 API 是否有助于阻止屏幕抓取?

最近我一直在思考屏幕抓取以及它可能是一项什么样的任务。 所以我提出以下问题。 作为网站开发人员,您会公开简单的 API 来防止用户抓取屏幕(例如 JS…

篱下浅笙歌 2024-07-11 09:12:03 7 0

像 Hubspot 这样的网站如何跟踪入站链接?

所有这些类型的网站都只是非法抓取 Google 或其他搜索引擎吗? 据我所知,没有“合法”的方式来获取商业网站的这些数据。 api ( http://developer.yah…

浊酒尽余欢 2024-07-11 08:26:11 6 0

有谁知道可以从 JavaScript 调用来创建和保存桌面屏幕截图的无 GUI 应用程序?

虽然这个话题听起来像是我想做一些狡猾的事情,但我不是; 我维护一个由数百个电话运营商使用的内部网站,并希望添加以下功能: 我想在所有网页的标题…

摘星┃星的人 2024-07-11 05:30:24 8 0

防止屏幕刮擦

Closed. This question is off-topic. It is not currently accepting answers. 想要改进此问题吗?更新问题,使其关于- Stack Overflow 的主题。 12…

ら栖息 2024-07-11 02:05:45 7 0

自动生成 HTTP 屏幕抓取 Java 代码

我需要从网站上筛选一些数据,因为无法通过他们的网络服务获得这些数据。 当我以前需要这样做时,我自己使用 Apache 的 HTTP 客户端库编写了 Java 代…

暖伴 2024-07-11 00:09:32 5 0

如何动态查找给定 URL 的入站链接?

Technorarati 拥有他们的 Cosmos api,它工作得相当好,但限制您用于非商业用途,并且不能使用每天超过500个查询。 雅虎有一个 Site Explorer InLink …

当爱已成负担 2024-07-10 21:43:53 7 0

在 C# 中抓取 Windows 应用程序的屏幕

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

喜爱纠缠 2024-07-10 16:09:46 5 0
更多

推荐作者

linfzu01

文章 0 评论 0

可遇━不可求

文章 0 评论 0

枕梦

文章 0 评论 0

qq_3LFa8Q

文章 0 评论 0

JP

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文