screen-scraping

screen-scraping

文章 0 浏览 8

python 2.7 中的正则表达式和 csv 问题

使用以下方法修复问题(对于其余问题,将更改我的代码)。很抱歉我最初的帖子中的代码格式不正确。 import csv, re, mechanize htmlML = br.response(…

花开半夏魅人心 2024-12-15 20:57:21 4 0

直接 LXML 或 PyQuery

有人有使用直接 lxml 与 PyQuery 进行抓取的经验吗?我最近才发现后者并且很感兴趣。我还没有找到很多关于这个库的评论,所以我很好奇它有多强大。 我…

讽刺将军 2024-12-15 16:09:19 7 0

对象调试器错误抓取页面...接近解决方案吗?

我在共享页面时遇到一个非常奇怪的问题,可能连接到 Facebook 使用的 DNS。 我通常分享我自己网站上的页面,没有任何问题。仅在一个新网站中,我无法…

左耳近心 2024-12-15 15:27:28 7 0

用卷曲进行屏幕刮擦

到目前为止,我编写的 cURL 代码在自动将我登录到网站后显示了我想要的页面,但是我陷入了屏幕抓取的问题。我现在想从这些数据中整理出更多信息。这是…

叫思念不要吵 2024-12-15 06:20:50 6 0

如何在 Ruby 中使用 Mechanize 选择单选按钮?

我正在构建一个爬虫,并且正在使用 Mechanize。我希望单击一个单选按钮。我该怎么做? 例如,有两个单选按钮,分别为“A”和“B”。 该网站自动选择 B…

心病无药医 2024-12-14 22:48:36 4 0

如何以编程方式登录网站

我不知道如何以编程方式登录此网站 我搜索了 stackoverflow 并找到了这个,但我仍然不知道不知道要在 URL 或 URI 中放入什么。…

待"谢繁草 2024-12-14 22:42:00 6 0

将 WinForms 应用程序发布为 html 5 canvas

我们已经有了一个大小合适的 WinForms 应用程序,我们正在逐步将其替换为 mvc Web 应用程序。 我想找到一种通过屏幕抓取工具或类似工具发布 WinForms …

淡莣 2024-12-14 22:25:06 8 0

如何使用 Objective-C 在 iOS 中模拟网页点击

我正在寻找适用于 iOS 的 Mechanize(Ruby/python 等)的等效版本。 我需要模拟网页中的点击(表单提交)并获取响应。我尝试使用 ASIHTTPRequest 构造…

信愁 2024-12-14 20:26:47 7 0

模式优化

我需要使用 Java 从 HTTP 响应中抓取一些内容。响应中的必填字段为:foo、bar 和 bla。我目前的模式非常慢。有什么想法如何改进吗? 回复: ... foo b…

皓月长歌 2024-12-14 15:51:44 5 0

将屏幕抓取的信息填充到列表中

我想将从网站抓取的屏幕信息填充到自定义列表中,我已使用此网站上的 jsoup 解析了数据: www.soccerway.com 但我无法启动我的应用程序,它会导致运行…

狂之美人 2024-12-14 12:36:29 3 0

从旧的 html dom 元素创建 json

我做了一些jquery+greasemonkey,我试图用它来重做我每天都必须使用的内部工作站点的界面,以尝试使其更可用。 我已经到了获取页面并将其粘贴到 div …

鞋纸虽美,但不合脚ㄋ〞 2024-12-14 10:02:24 3 0

在页面上查找与 HREF 模式匹配的链接

我正在尝试与一个充满图像的网站进行交互,并希望通过单击每个图像来与其进行交互。每个图像都有一个相对 URL(例如:/image/1000/、image/1023/ 等)…

浅笑轻吟梦一曲 2024-12-13 23:42:44 5 0

使用服务器处理数据的屏幕抓取

这个想法如下。 用户向服务器发送凭据(用户名、密码)。 服务器尝试登录网站并解析有用的数据。一些 数据保留到服务器以便在以下情况下提供通知 下一…

风铃鹿 2024-12-13 21:25:44 6 0

屏幕抓取 JavaScript

所以我从一个网站上抓取javascript,它返回下面的代码,但是如果这当然不会显示flash视频或渲染javscript,因为我只是使用简单的php dom解析器来返回H…

夏天碎花小短裙 2024-12-13 11:07:43 2 0

Beautifulsoup 刮书目录

for i in range(1,1000000): page = urllib2.urlopen("http://www.palgrave.com/products/title.aspx?pid="+str(i)) print "http://www.palgrave.com/…

别挽留 2024-12-13 05:35:42 2 0
更多

推荐作者

晚安先生.

文章 0 评论 0

mmi23

文章 0 评论 0

梦中的蝴蝶

文章 0 评论 0

skjfmsvd

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文