如何使用正则表达式从网页中提取数据?
我正在编写一个curl脚本来收集有关一些性犯罪者的信息,我开发了一个脚本来获取如下所示的链接: http://criminaljustice.state.ny.us/cgi/internet/n…
Python-从 asp.net AJAX 应用程序获取数据
使用Python,我尝试读取 http://utahcritseries.com/RawResults.aspx 上的值。 我可以很好地阅读该页面,但很难更改年份组合框的值以查看其他年份的数…
网页抓取选项 - C++ 仅版本
我正在寻找一个好的 C++ 库来进行网页抓取。 它必须是C/C++,没有其他,所以请不要引导我HTML 抓取选项 或其他 SO 问题/答案,其中甚至没有提到 C++。…
python-beautifulsoup 误报了我的 html 吗?
据我所知,我每台机器都有两台,运行 python 2.5 和 BeautifulSoup 3.1.0.1。 我正在尝试抓取 http://utahcritseries.com/RawResults.aspx,使用 from…
如何使用 Perl 登录 YouTube?
我正在尝试编写一个 Perl 脚本来连接到我的 YouTube 帐户,但它似乎不起作用。 基本上我只想连接到我的帐户,但显然它不起作用。 我什至不知道如何调…
卷曲功能可从选择框中选择选项并自动提交
我是一个新手,每天都会尝试不同的事情,当我遇到困难时总是来这里。 我想使用curl和php编写一个脚本,该脚本转到此链接:http:// tools.cisco.com/WW…
如何从屏幕上抓取网络邮件页面?
我正在做一个项目,其中我需要登录网站并抓取网页内容。 我尝试了以下代码: protected void Page_Load(object sender, EventArgs e) { WebClient web…
截取您一生中见过的最丑陋的 HTML
我正在使用 PHP 和 libtidy 来尝试筛选可能是历史上最可怕、最畸形的 HTML 表格使用情况。 该网站关闭了一些表格、tr、td、字体或粗体标签,并始终在…
为 Java 应用程序筛选格式不良的 XHTML 页面的最佳方法是什么
我希望能够从网页中获取内容,尤其是标签及其中的内容。 我尝试过 XQuery 和 XPath,但它们似乎不适用于格式错误的 XHTML,而 REGEX 则很痛苦。 有没…
如何在 ASP.NET 中模拟网站登录,然后从页面中抓取一些数据
是否有人对在 ASP.NET 代码中执行以下操作有任何建议: 1) 使用用户名和密码登录受密码保护的站点(目标站点不一定是 ASP.NET) 2) 导航到特定页面和/…
屏幕抓取 ASP.NET 网页以检索网格视图中显示的数据
我正在使用 RUBY 来屏幕截图一个网页(在 asp.net 中创建),该网页使用 gridview 来显示数据。 我能够成功读取网格第 1 页上显示的数据,但无法弄清…
为什么 Beautiful Soup 会截断此页面?
我正在尝试从我的学校图书馆订阅的资源列表中提取资源/数据库名称和 ID 列表。 有些页面列出了不同的资源,我可以使用 urllib2 来获取页面,但是当我…
如何下载雅虎网上论坛?
我想下载一些雅虎群组(文件、照片、消息、成员列表),我找到了这些脚本: http ://freshmeat.net/projects/grabyahoogroup/ http://sourceforge .ne…