screen-scraping

screen-scraping

文章 0 浏览 3

为 Java 应用程序筛选格式不良的 XHTML 页面的最佳方法是什么

我希望能够从网页中获取内容,尤其是标签及其中的内容。 我尝试过 XQuery 和 XPath,但它们似乎不适用于格式错误的 XHTML,而 REGEX 则很痛苦。 有没…

初心 2024-07-16 06:54:39 6 0

如何在 ASP.NET 中模拟网站登录,然后从页面中抓取一些数据

是否有人对在 ASP.NET 代码中执行以下操作有任何建议: 1) 使用用户名和密码登录受密码保护的站点(目标站点不一定是 ASP.NET) 2) 导航到特定页面和/…

猫七 2024-07-16 05:43:48 3 0

屏幕抓取 ASP.NET 网页以检索网格视图中显示的数据

我正在使用 RUBY 来屏幕截图一个网页(在 asp.net 中创建),该网页使用 gridview 来显示数据。 我能够成功读取网格第 1 页上显示的数据,但无法弄清…

嘿咻 2024-07-15 23:17:12 4 0

为什么 Beautiful Soup 会截断此页面?

我正在尝试从我的学校图书馆订阅的资源列表中提取资源/数据库名称和 ID 列表。 有些页面列出了不同的资源,我可以使用 urllib2 来获取页面,但是当我…

み格子的夏天 2024-07-15 17:29:28 6 0

如何下载雅虎网上论坛?

我想下载一些雅虎群组(文件、照片、消息、成员列表),我找到了这些脚本: http ://freshmeat.net/projects/grabyahoogroup/ http://sourceforge .ne…

伴随着你 2024-07-15 10:44:18 5 0

从表单生成可能的 URL

我正在尝试获取此页面上的表单生成的所有 URL(然后获取数据) - http://www.vodafone.in/_layouts/servicecallertunes.aspx 收效甚微。 我已经在 Fir…

囚你心 2024-07-15 00:01:35 6 0

我想抓取 iTunes top X RSS feed 并插入 dB

最好我想用一些 bash shell 脚本来做到这一点,也许是一些 PHP 或 PERL 和 MySQL 数据库。 想法?…

茶底世界 2024-07-14 19:01:06 3 0

阅读并响应屏幕上的匹配标准

我正在寻找为我的 Win32 系统开发一些东西,可以找到并响应特定的屏幕事件。 例如,当我的屏幕(屏幕的 30x30 像素部分)的位图范围 (100,100) 到 (13…

无远思近则忧 2024-07-14 14:16:18 3 0

如何防止抓取网页上的某些数据?

我只想保护每个请求后显示的某些号码。 这样的数字大约有30个。 我计划在这些数字的位置生成图像,但如果图像不像验证码那样扭曲,脚本是否能够破译该…

漆黑的白昼 2024-07-14 10:10:38 4 0

如何在 C# 中登录网页并检索其内容?

如何在 C# 中登录网页并检索其内容?…

旧时光的容颜 2024-07-14 08:10:42 3 0

如何从 HTML 文件中提取所需的数据?

这是我的 HTML: p_tags = '''&ltp class="foo-body"&gt &ltfont class="test-proof"&gtFull name&lt/font&gt Foobar&ltbr /&gt &ltfont class="test-…

胡渣熟男 2024-07-14 07:54:11 6 0

使用 www::mechanize 时的 Iconv::IllegalSequence

我正在尝试进行一些网络抓取,但 WWW:Mechanize gem 似乎不喜欢编码并且崩溃。 post 请求导致 302 重定向(机械化遵循,到目前为止一切顺利),并且生…

巴黎盛开的樱花 2024-07-14 02:55:50 8 0

超快速的屏幕抓取技术?

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

未蓝澄海的烟 2024-07-14 01:17:48 5 0

计算 Twitter 上特定单词的结果数

为了进一步推进我的个人项目,我一直在思考如何计算 Twitter。 我广泛使用了他们的 API,但一直无法想出一种有效甚至半实用的方法来计算特定单词的出…

心如狂蝶 2024-07-14 00:52:30 7 0

使用selectorgadget.com 解析HTML 文件

我如何使用 beautiful soup 和 selectorgadget 来抓取网站。 例如,我有一个网站 - (newegg 产品) 并且我希望我的脚本返回该产品的所有规格(单击“…

半暖夏伤 2024-07-13 20:45:40 3 0
更多

推荐作者

yangzhenyu123

文章 0 评论 0

lvzun

文章 0 评论 0

执笔绘流年

文章 0 评论 0

芯好空

文章 0 评论 0

始于初秋

文章 0 评论 0

谁与争疯

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文