screen-scraping

screen-scraping

文章 0 浏览 3

正则表达式 flash url

您好,我正在尝试开发一个 C# 程序来抓取网站上 flash 电影的 url,这是我正在尝试解析的代码 flashvars="file=http://cache01-videos02.myspacecdn.c…

假情假意假温柔 2024-07-24 23:32:49 2 0

以编程方式检测“最重要的内容” 在一页上

已经做了哪些工作(如果有的话)来自动确定 html 文档中最重要的数据? 举个例子,想象一下您的标准新闻/博客/杂志风格的网站,其中包含导航(可能带…

陈甜 2024-07-24 22:48:50 8 0

自动化网络趋势分析

我每周都会访问由 WebTrends 处理的服务器日志(大约 7 个配置文件),并将广告点击率和访问者信息复制到 Excel 电子表格中。 其中很多只是访问某些部…

何其悲哀 2024-07-24 18:20:53 5 0

抓取 Flash 网站

我愿意创建一个脚本,从 Flash 中完成的网站获取信息。 我正要开始编写一个应用程序,执行以下操作: 将鼠标移动到位置 x,y。 单击鼠标。 等待 x 毫秒…

温柔戏命师 2024-07-24 08:37:03 0 0

如何在 bash/zsh/ksh 中复制期间创建目录?

我经常收到以下消息,例如,当将开发文件复制到主分支时, cp: /Users/Masi/gitHub/shells/zsh/dvorak: No such file or directory cp: /Users/Masi/g…

断爱 2024-07-23 11:03:03 4 0

保存 html 页面 + 更改所有链接以指向正确的位置

你可能知道IE有一个可以保存网页的东西,它会自动下载html文件以及html文件使用的所有图像/css/js文件。 现在有一个问题 - html 文件中的链接没有改变…

荒岛晴空 2024-07-23 05:06:32 1 0

将多个 html 文件抓取到 CSV

我正在尝试从硬盘驱动器上的 1200 多个 .htm 文件中删除行。 在我的计算机上,它们位于“file:///home/phi/Data/NHL/pl07-08/PL020001.HTM”。 这些.h…

维持三分热 2024-07-23 02:02:53 2 0

XULRunner 下的 javascript 服务器失败

我正在尝试调试名为 crowbar 的 DOM 抓取打包。 不管怎样,当我跑步时我得到: 错误:[异常...“组件返回失败代码:0xc1f30001(NS_ERROR_NOT_INITIAL…

讽刺将军 2024-07-22 07:23:11 3 0

如何使用 JavaScript 从 stackoverflow 页面内部获取用户编号?

我正在尝试设置一个页面(如果它是堆栈溢出的一部分)将生成 Stackoverflow Flair Blogger Gadget。…

海风掠过北极光 2024-07-22 05:04:26 2 0

美丽的汤和 uTidy

我想将 utidy 的结果传递给 Beautiful Soup,ala: page = urllib2.urlopen(url) options = dict(output_xhtml=1,add_xml_decl=0,indent=1,tidy_mark=…

绝情姑娘 2024-07-22 04:32:20 6 0

如何使机械化不会因该页面上的表单而失败?

import mechanize url = 'http://steamcommunity.com' br=mechanize.Browser(factory=mechanize.RobustFactory()) br.open(url) print br.request pri…

蹲墙角沉默 2024-07-21 06:02:54 2 0

是否可以从远程应用程序 StatusBarWndClass 获取单元格文本?

我有一个旧版 vb 应用程序,状态栏中有数据,我想用它来驱动 .NET 应用程序。 我使用spy++ 来深入了解窗口结构,并成功使用FindWindow 和FindWindowEx…

两个我 2024-07-20 17:14:54 5 0

用于绘制区域的 Javascript 图形库

作为一名风帆冲浪爱好者,我对接下来几周的风势很感兴趣。 为此,我一直在编写一个小应用程序来抓取一个流行的天气网站(仅供个人使用 - 不转发信息或…

七分※倦醒 2024-07-20 15:04:36 3 0

机械化html抓取问题

所以我尝试使用 ruby​​ mechanize 和 hpricot 提取我网站的电子邮件。 我试图在我的管理端的所有页面上进行循环并使用 hpricot 解析页面。到目前为…

埋葬我深情 2024-07-20 10:28:51 3 0

如何从专有CMS迁移资源?

我需要从使用活动服务器页面的专有 CMS 迁移我们的网站。 是否有工具或技术可以帮助从现有站点下载资源? 我想我正在寻找一种可以抓取和抓取整个网站…

怪我入戏太深 2024-07-20 10:12:04 5 0
更多

推荐作者

yangzhenyu123

文章 0 评论 0

lvzun

文章 0 评论 0

执笔绘流年

文章 0 评论 0

芯好空

文章 0 评论 0

始于初秋

文章 0 评论 0

谁与争疯

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文