第 12 页 - screen-scraping

投稿关注

screen-scraping

文章 0 浏览 5

抓取页面

抓取经销商库存页面的可怕混乱的最佳实践是什么（使用 js 记录。编写，然后使用纯文本 html 关闭它）？没有 div/tds/任何东西都标有任何 id 或类等。…

怪异←思 2024-10-17 07:20:01 4 0

登录网站并抓取流数据

我并不是真正的程序员，但出于一般好奇心而问这个问题。我最近访问了一个网站，登录后进入一个页面，无需离开，该页面上的数据就刷新在我眼前。是否…

流云如水 2024-10-17 04:43:49 1 0

如何使用java从.shtml下载图像？

我在使用 java 从网页下载图像时遇到问题 - 除了 .shtml 页面外，一切正常。有什么想法吗？我可以获取该页面的源代码，但无法从中下载图像。提前感谢…

橙幽之幻 2024-10-16 18:44:16 5 0

我如何登录、导航并从受保护的网站返回数据，到目前为止我所做的一切都不起作用

虽然我发现了许多关于如何使用 HttpWebRequest 和 Response 进行 GET 和 POST 的文章和其他信息，但我发现自己很难让事情像我期望的那样工作。我一直…

奢望 2024-10-16 10:29:56 5 0

WWW:机械化表格选择

我正在尝试使用 WWW:Mechanize 登录 Youtube，并在登录后使用 forms() 打印出页面上的所有表单。我的脚本已成功登录，并且也成功导航到 Youtube.com/i…

很糊涂小朋友 2024-10-16 05:08:22 10 0

使用 scrapy 抓取 yahoo 群组时出现问题

我是网络抓取新手，刚刚开始尝试 Scrapy，这是一个用 Python 编写的抓取框架。我的目标是清理旧的雅虎集团，因为他们不提供 API 或任何其他方式来检索…

没企图 2024-10-15 17:28:18 9 0

使用 BeautifulSoup 时抑制/忽略特定类型错误的任何方法

我抓取的每个页面上都有许多元素，但许多页面没有我需要的所有项目，因此我最终不得不将每个项目都包裹在其中， try: itemNeeded = soup.find(text="y…

酒浓于脸红 2024-10-14 22:26:43 7 0

这是为我的屏幕抓取器缓存页面的糟糕方法吗？

我编写了一个简单的屏幕抓取工具来帮助我为希腊语课制作词汇抽认卡。它从在线词典中抓取单词，并以我的闪存卡管理器可以理解的格式输出它们。我不想…

稍尽春風 2024-10-14 18:24:18 9 0

如何使用 scraped_resource gem 设置抓取？

我发现了 scraped_resource gem，这听起来是进行屏幕抓取的好方法。如何使用这个 gem 创建一个刮刀？这是全新的，所以我找不到任何文档。 http://gith…

怀中猫帐中妖 2024-10-14 07:56:28 4 0

为每个发出的请求清除 Firefox 中的会话（Watir 问题）

我正在开发一个屏幕抓取机器人，它使用 Watir (ruby) 来抓取特定的网络搜索。使用 Watir 是因为搜索结果以页面形式提供，只能通过 AJAX 请求获得。 …

动听の歌 2024-10-13 07:46:38 7 0

php xpath 屏幕抓取问题

好吧，这看起来很简单，但我根本无法让这个编码工作... $html = new DOMDocument(); @$html->loadHtmlFile('http://www.groupon.com/deals/the-newfou…

爱本泡沫多脆弱 2024-10-13 02:54:25 7 0

有什么解决方案可以自动捕获网站内的数据吗？

我想编写一个应用程序来从网站捕获数据，该网站正在使用 ajax 从服务器检索数据。有什么解决方案可以让我方便地获取这些数据并将其存储到我自己的数…

痴梦一场 2024-10-12 13:51:31 6 0

使用Python和Mechanize提交表单数据并进行身份验证

我想要登录 Reddit.com 网站，导航到页面的特定区域，然后提交评论。我不明白这段代码有什么问题，但它不起作用，因为 Reddit 网站上没有反映任何更改…

段念尘 2024-10-12 09:20:15 9 0

我如何“获得”将美国所有酒吧/俱乐部的数据存入数据库。叫喊 API？

我想做的是创建美国所有酒吧的数据库。我需要半定期（每周左右）更新此数据库以包含新开的酒吧。 yelp api 的问题是它们只会返回 20 个结果。我方圆 5…

暮年 2024-10-12 08:54:43 6 0

关于curl、xpath查询的问题

我的 xpath 查询需要一些帮助。我可以让这段代码与我需要抓取的几乎每个网站一起使用，除了特定网站的一小部分...我只是得到一个空白页面...有谁知道…

夏末 2024-10-12 02:42:56 5 0

束缚ｍ

文章 0 评论 0

关注

alipaysp_VP2a8Q4rgx

文章 0 评论 0

关注

α

文章 0 评论 0

关注

一口甜

文章 0 评论 0

关注

厌味

文章 0 评论 0

关注

转身泪倾城

文章 0 评论 0

友情链接

文江博客

screen-scraping

抓取页面

登录网站并抓取流数据

如何使用java从.shtml下载图像？

我如何登录、导航并从受保护的网站返回数据，到目前为止我所做的一切都不起作用

WWW:机械化表格选择

使用 scrapy 抓取 yahoo 群组时出现问题

使用 BeautifulSoup 时抑制/忽略特定类型错误的任何方法

这是为我的屏幕抓取器缓存页面的糟糕方法吗？

如何使用 scraped_resource gem 设置抓取？

为每个发出的请求清除 Firefox 中的会话（Watir 问题）

php xpath 屏幕抓取问题

有什么解决方案可以自动捕获网站内的数据吗？

使用Python和Mechanize提交表单数据并进行身份验证

我如何“获得”将美国所有酒吧/俱乐部的数据存入数据库。叫喊 API？

关于curl、xpath查询的问题

热门标签

推荐作者

束缚ｍ

alipaysp_VP2a8Q4rgx

α

一口甜

厌味

转身泪倾城

友情链接