用于解析“SRC”的 XPath 来自 IMG 标签?
现在,我成功地从 HTML 页面中获取了完整的元素: //img[@class='photo-large'] 例如,它将返回: <img src="http://example.com/img.jpg" class='p…
如何在不使用 API 的情况下以编程方式执行搜索?
我想创建一个程序,将字符串输入到 Google 等网站的文本框中(不使用其公共 API),然后提交表单并获取结果。 这可能吗? 我认为抓取结果需要使用 HTM…
无法使用 simplehtmldom 正确分隔单元格
我正在尝试编写一个网络爬虫。 我想将所有单元格排成一行。 我想要的行之前的行将 THOROUGHBRED MEETINGS 作为其纯文本值。 我可以成功获得这一行。 …
如何在 simplehtmldom 中通过标签内容进行搜索?
我正在尝试使用 simplehtmldom 编写一个网络抓取工具。 我想通过搜索标签的内容来获取标签。 这是其中的明文,而不是标签的类型。 然后,一旦我通过搜…
使用 PHP 抓取完整图像 src
我正在尝试用 php 抓取 img src,我可以很好地获取 src,但是如果 src 不包含完整路径,那么我无法真正重用它。 有没有办法使用php获取图像的完整路径…
使用 PHP 从远程站点抓取时跟踪 Javascript 链接
给定远程页面: http://example.com/paged_list.aspx 使用 Javascript 函数调用显示多页表格数据: javascript: show_page(1) javascript: show_page(…
将 HTML 行解析为 CSV
首先,html 行看起来像这样: <tr class="evenColor"> blahblah TheTextIneed blahblah and ends with </tr> 我会显示真正的 html,但很遗憾…
我应该使用 Yahoo-Pipes 来抓取 div 的内容吗?
给定: 网址 - http://www.contoso.com/search.php? q={param} 返回: -html- --正文- {...} ---div id='foo'- ----div id='第1页'/- ----div id='第2…
适用于 Java、Ruby、Python 的 HTML Agility Pack 或 HTML 屏幕抓取库?
我发现 HTML Agility Pack 对于屏幕抓取网站非常有用且易于使用。 Java、Ruby、Python 中 HTML 屏幕抓取的等效库是什么?…
如何获取域的 URL 列表
Closed. This question is not about programming or software development. It is not currently accepting answers. 这个问题似乎不是关于特定的编…
检测要传递的 URL POST 参数
问题是从 wikimapia.org 屏幕上抓取实体(餐厅名称等)的纬度/经度,并根据纬度/经度限制结果 以下是我的尝试方法: 在 Firefox 中安装实时 HTTP 标头…