screen-scraping

screen-scraping

文章 0 浏览 3

如何快速获取并处理实时屏幕输出

我正在尝试编写一个程序来玩全屏电脑游戏(作为计算机视觉和人工智能的实验)。 对于这个实验,我假设游戏没有供 AI 玩家使用的底层 API(也没有可用…

帅冕 2024-09-04 06:46:06 1 0

帮助将使用 httlib2 的代码转换为使用 urllib2

我想做什么? 访问站点,检索 cookie,通过发送 cookie 信息访问下一页。这一切都有效,但 httplib2 给我在一个站点上使用袜子代理带来了太多问题。 h…

鹊巢 2024-09-04 03:45:10 4 0

Mechanize 可以进行 Javascript 调用吗?

Mechanize 可以进行 Javascript 调用吗? 这在屏幕抓取时协商 AJAX 会很方便......…

黎夕旧梦 2024-09-03 19:45:57 0 0

抓取网站的请求数/第二标准是什么?

这是与我的问题最接近的问题,但在我看来,它并没有得到很好的回答: 网络抓取礼仪 我正在寻找问题#1 的答案: 您应该每秒执行多少个请求来进行抓取?…

鹿! 2024-09-03 14:55:37 0 0

如何导出scruyt提取器?

我编写了一个基于“学习”技术的 scrapyt 提取器,即指定页面上的当前文本并让它计算出 XPath 表达式本身。但是,我现在想导出提取器,以便即使页面发…

路弥 2024-09-03 13:57:38 1 0

Nokogiri 只查找入站链接

我有一个 html 文档位于 http://somedomain.com/somedir/example.html 该文档包含四个链接: http://otherdomain.com/other.html http://somedomain.c…

残月升风 2024-09-03 09:19:42 0 0

使用屏幕抓取时出现页面发布问题

我正在进行屏幕抓取并在 3 个网站中成功完成,我在最后一个网站中遇到问题 ,这是我的网址,当我使用参数时,它会在下一页上显示结果,只需发布​​到…

糖果控 2024-09-03 09:06:16 3 0

屏幕抓取应用程序窗口并与鼠标和键盘交互

有一天,我发现自己沉迷于 Flash 游戏,同时也对这件事感到沮丧。在对游戏感到沮丧的时刻,我想我应该制作一个“机器人”来帮我打败它。好吧,我真的…

穿透光 2024-09-03 07:49:25 3 0

Javascript 的 Python Scraper?

谁能指导我找到一个好的 Python 屏幕抓取库来获取 JavaScript 代码(希望有好的文档/教程)?我想看看有哪些选择,但最重要的是最容易学习且效果最快.…

⒈起吃苦の倖褔 2024-09-03 03:17:43 2 0

如何使用正则表达式提取子字符串? (屏幕抓取)

嘿伙计们,我真的很想在抓取网站时理解正则表达式,我已经在我的代码中使用它足以提取以下内容,但我被困在这里。我需要快速抓住这一点: http://www.…

世界和平 2024-09-02 08:10:56 2 0

使用 Jena 读取本体,为其提供 RDF 三元组,并生成正确的 RDF 字符串输出

我有一个本体论,我与 Jena 一起阅读它,以帮助我从网站上抓取一些 RDFa 三元组。我目前没有将这些三元组存储在耶拿模型中,但这相当简单,它在我的下…

旧城空念 2024-09-02 01:34:12 3 0

屏幕抓取:绕过“HTTP 错误 403:robots.txt 不允许的请求”

有办法解决以下问题吗? httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt 这是联系网站所有者(barnesandnoble.com)的唯…

病女 2024-09-01 17:54:43 4 0

PHP 相当于 PyQuery 或 Nokogiri?

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

小苏打饼 2024-09-01 16:49:03 1 0

使用 Ruby Mechanize 时进行存根测试

我一直在尝试使用 Mocha 对使用 Mechanize 的代码进行一些存根测试。下面是一个示例方法: def lookup_course subject_area = nil, course = nil, qua…

沉溺在你眼里的海 2024-09-01 16:45:42 1 0

网站内容抓取

我们在 IIS 6 Windows 2003 上托管了一个企业列表目录。我们的竞争对手抓取并窃取我们的内容和客户。 我们尝试过使用蜜罐 URL 和日志解析来阻止 IP,…

紧拥背影 2024-09-01 14:59:26 1 0
更多

推荐作者

qq_FjTq5B

文章 0 评论 0

18273202778

文章 0 评论 0

WordPress小学生

文章 0 评论 0

〃温暖了心ぐ

文章 0 评论 0

迷乱花海

文章 0 评论 0

niuniu

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文