当前位置：文江博客文章教程详情

PHP HTML 网络请求网络代理内容采集 Snoopy

Snoopy 模仿 Web 浏览器的功能网络请求 PHP 类

发布于 2020-04-16 23:16:45 字数 10067 浏览 1521 评论 0

Snoopy 是 PHP 一个类。它能用来模仿 web 浏览器的功能，它能完成获取网页内容和发送表单的任务。官网：http://snoopy.sourceforge.net/

特点

快速简便抓取网页的内容，文本（去掉了 Html 标签）和链接。
支持代理服务器，基本的用户/密码认证模式，内容。
支持浏览器重定向，并控制深度。
扩展获取的链接成带有域名的链接（默认）
能提交表单数据并获取结果
支持跟踪 HTML 框架（0.92 版本增加）
支持在重定向时传递 cookies（0.92 版本增加）

Snoopy 正确运行需要你的服务器的 PHP 版本在 4 以上，并且支持 PCRE（Perl Compatible Regular Expressions），基本的 LAMP 服务都支持。

方法函数

它提供以下的接口或者方法：

`fetch($URI)`

这个方法是抓取网页的内容，$URI 是要抓取网页的网址，抓取过来结果存储到 $this->results。如果你抓取的是框架，这每个 frame 都会被抓取，结果会保存到一个数组中。

$url = "https://www.wenjiangs.com";  
include("./Snoopy.class.php");  
$snoopy = new Snoopy;  
$snoopy->fetch($url);        //获取所有内容
echo $snoopy->results;       //显示结果

`fetchtext($URI)`

这个方法和 fetch() 是大致相同，只是它的结果是文本，除去 HTML 标签和其他无关信息。

$url = "https://www.wenjiangs.com";  
include("./Snoopy.class.php");  
$snoopy = new Snoopy;  
$snoopy->fetchtext($url);    //获取文本内容
echo $snoopy->results;       //显示结果

`fetchform($URI)`

这个方法只返回抓取的网页上 form 元素。

`fetchlinks($URI)`

这个方法只返回抓取的网页上的链接，默认返回的链接都是含有域名的链接。

`submit($URI,$formvars)`

这个方法提交一个表单到指定的 $URI。$formvars 是要传递的 form 变量数组。

`submittext($URI,$formvars)`

这个方法和 submit() 基本一致，但是它返回的是文本，除去了 html 标签和其他无关数据。

`submitlinks($URI)`

这个方法返回的是链接。

类属性

下面是 Snoopy 素有属性，缺省值在括号里。

$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机，如果有的话
$proxy_port 使用的代理主机端口，如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 来路信息，如果有的话
$cookies cookies，如果有的话
$rawheaders 其他的头信息, 如果有的话
$maxredirs 最大重定向次数， 0=不允许 (5)
$offsiteok whether or not to allow redirects off-site. (true)
$expandlinks 是否将链接都补全为完整地址 (true)
$user 认证用户名, 如果有的话
$pass 认证用户名, 如果有的话
$accept http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$error 哪里报错, 如果有的话
$response_code 从服务器返回的响应代码
$headers 从服务器返回的头信息
$maxlength 最长返回数据长度
$read_timeout 读取操作超时 (requires PHP 4 Beta 4+)，设置为0为没有超时
$timed_out 如果一次读取操作超时了，本属性返回 true (requires PHP 4 Beta 4+)
$maxframes 允许追踪的框架最大数量
$status 抓取的http的状态
$temp_dir 网页服务器能够写入的临时文件目录 (/tmp)
$curl_path cURL binary 的目录, 如果没有cURL binary就设置为 false

简单示例

include "Snoopy.class.php";  
$snoopy = new Snoopy;  
$snoopy->proxy_host = "https://www.wenjiangs.com";  
$snoopy->proxy_port = "80";  
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";  
$snoopy->referer = "http://www.wenjiangs.cn";  
$snoopy->cookies["SessionID"] = 238472834723489l;  
$snoopy->cookies["favoriteColor"] = "RED";  
$snoopy->rawheaders["Pragma"] = "no-cache";  
$snoopy->maxredirs = 2;  
$snoopy->offsiteok = false;  
$snoopy->expandlinks = false;  
$snoopy->user = "joe";  
$snoopy->pass = "bloe";  
if($snoopy->fetchtext("http://www.wenjiangs.cn")) {  
  echo "<PRE>".htmlspecialchars($snoopy->results)."</PRE>n";  
}else{
  echo "error fetching document: ".$snoopy->error."n";
}

获取指定 URL 内容

$url = "https://www.wenjiangs.com";  
include("snoopy.php");  
$snoopy = new Snoopy;  
$snoopy->fetch($url); //获取所有内容
echo $snoopy->results; //显示结果
//可选以下
//$snoopy->fetchtext //获取文本内容（去掉html代码）
//$snoopy->fetchlinks //获取链接
//$snoopy->fetchform  //获取表单

表单提交

$formvars["username"] = "admin";  
$formvars["pwd"] = "admin";  
$action = "https://www.wenjiangs.com";//表单提交地址  
$snoopy->submit($action,$formvars);//$formvars为提交的数组
echo $snoopy->results; //获取表单提交后的 返回的结果
//可选以下
$snoopy->submittext; //提交后只返回 去除html的 文本
$snoopy->submitlinks;//提交后只返回 链接

其他骚操作

既然已经提交的表单，那就可以做很多事情。接下来我们来伪装ip，伪装浏览器：

$formvars["username"] = "admin";  
$formvars["pwd"] = "admin";  
$action = "https://www.wenjiangs.com";  
include "snoopy.php";  
$snoopy = new Snoopy;  
$snoopy->cookies["PHPSESSID"] = 'fc106b1918bd522cc863f36890e6fff7'; //伪装sessionid
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)"; //伪装浏览器
$snoopy->referer = https://www.wenjiangs.com; //伪装来源页地址 http_referer
$snoopy->rawheaders["Pragma"] = "no-cache"; //cache 的http头信息
$snoopy->rawheaders["X_FORWARDED_FOR"] = "127.0.0.1"; //伪装ip
$snoopy->submit($action,$formvars);
echo $snoopy->results;

原来我们可以伪装 session、伪装浏览器、伪装ip，可以做很多事情了。例如：带验证码、验证 ip、投票，可以不停的投。

这里伪装 ip ，其实是伪装 http 头，所以一般的通过 REMOTE_ADDR 获取的 ip 是伪装不了，反而那些通过 http 头来获取 ip 的(可以防止代理的那种) 就可以自己来制造 ip。

关于如何验证码，简单说下：首先用普通的浏览器，查看页面，找到验证码所对应的 sessionid，同时记下sessionid和验证码值，接下来就用snoopy去伪造。

原理：由于是同一个 sessionid 所以取得的验证码和第一次输入的是一样的。

有时我们可能需要伪造更多的东西，snoopy完全为我们想到了：

$snoopy->proxy_host = "https://www.wenjiangs.com";  
$snoopy->proxy_port = "8080"; //使用代理
$snoopy->maxredirs = 2; //重定向次数
$snoopy->expandlinks = true; //是否补全链接 在采集的时候经常用到
// 例如链接为 /images/taoav.gif 可改为它的全链接 
// <a href="https://www.wenjiangs.com/wp-content/themes/wtheme/images/banner2.jpg">
// https://www.wenjiangs.com/wp-content/themes/wtheme/images/banner2.jpg
// </a>
$snoopy->maxframes = 5 //允许的最大框架数
//注意抓取框架的时候 $snoopy->results 返回的是一个数组
$snoopy->error //返回报错信息

比较完整的示例

/**
* You need the snoopy.class.php from 
* http://snoopy.sourceforge.net/
*/
include("snoopy.class.php");  
$snoopy = new Snoopy;  
// need an proxy?:
//$snoopy->proxy_host = "my.proxy.host";
//$snoopy->proxy_port = "8080";
// set browser and referer:
$snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";  
$snoopy->referer = "http://www.jonasjohn.de/";  
// set some cookies:
$snoopy->cookies["SessionID"] = '238472834723489';  
$snoopy->cookies["favoriteColor"] = "blue";  
// set an raw-header:
$snoopy->rawheaders["Pragma"] = "no-cache";  
// set some internal variables:
$snoopy->maxredirs = 2;  
$snoopy->offsiteok = false;  
$snoopy->expandlinks = false;  
// set username and password (optional)
//$snoopy->user = "joe";
//$snoopy->pass = "bloe";
// fetch the text of the website www.google.com:
if($snoopy->fetchtext("http://www.google.com")){   
  // other methods: fetch, fetchform, fetchlinks, submittext and submitlinks
  // response code:
  print "response code: ".$snoopy->response_code."<br/>n";  
  // print the headers:
  print "<b>Headers:</b><br/>";  
  while(list($key,$val) = each($snoopy->headers)){  
    print $key.": ".$val."<br/>n";  
  }  
  print "<br/>n";  
  // print the texts of the website:
  print htmlspecialchars($snoopy->results)."n";  
}  
else {  
  print "Snoopy: error while fetching document: ".$snoopy->error."n";  
}

图片采集器

用 Snoopy 类完成一个简单的图片采集：

include 'Snoopy.class.php'; //加载Snoopy类
$snoopy = new Snoopy(); //实例化一个对象
$sourceURL = "http://www.nowamagic.net/librarys/veda/"; //要抓取的网页
$snoopy->fetchlinks($sourceURL); //获得网页的链接
$a = $snoopy->results; //得到网页链接的结果
$re = "/d+.html$/"; //匹配的正则
//过滤获取指定的文件地址请求
foreach ($a as $tmp) {
  if (preg_match($re, $tmp)) {
    $aa = $tmp;
  }
}
getImgURL($aa);
function getImgURL($siteName) {
  $snoopy = new Snoopy();
  $snoopy->fetch($siteName);
  $fileContent = $snoopy->results; //获取过滤后的页面的内容
  //匹配图片的正则表达式
  $reTag = "/<img[^s]+src="(http: //[^"]+).(jpg|png|gif|jpeg)"[^/]*/>/i";
    if (preg_match($reTag, $fileContent)) {
      //过滤图片
      $ret = preg_match_all($reTag, $fileContent, $matchResult);
      for ($i = 0, $len = count($matchResult[1]); $i < $len; ++$i) {
        saveImgURL($matchResult[1][$i], $matchResult[2][$i]);
      }
    }
  }
  function saveImgURL($name, $suffix) {
    $url = $name . "." . $suffix;
    echo "请求的图片地址：" . $url . "<br/>";
    $imgSavePath = "E:/123/images/"; //图片保存地址
    $imgId = mt_rand(); //产生一个随机的文件名
    if ($suffix == "gif") {
      //根据图片类型，放入不同的文件夹下面
      $imgSavePath.= "emotion";
    } else {
      $imgSavePath.= "topic";
    }
    $imgSavePath.= ("/" . $imgId . "." . $suffix); //组装要保存的文件名
    if (is_file($imgSavePath)) {
      //判断文件名是否存在，存在则删除
      unlink($imgSavePath);
      echo "<p style='color:#f00;'>文件" . $imgSavePath . "已存在，将被删除</p>";
    }
    $imgFile = file_get_contents($url); //读取网络文件
    $flag = file_put_contents($imgSavePath, $imgFile); //写入到本地
    if ($flag) {
      echo "<p>文件" . $imgSavePath . "保存成功</p>";
    }
  }
}

在 WordPress 中使用

在 WordPress 中，已经包含了这个类，WordPress 就使用 Snoopy 来下载文件来更新插件，其中用到的 Snoopy 类的代码为：

function download_url( $url ) {
  if( ! $url )
    return false;
 
  $tmpfname = tempnam(get_temp_dir(), 'wpupdate'); //获取临时文件名
  if( ! $tmpfname )
    return false;
 
  $handle = fopen($tmpfname, 'w'); //以写的方式打开临时文件
  if( ! $handle )
    return false;
 
  require_once( ABSPATH . 'wp-includes/class-snoopy.php' ); //引入 Snoopy 类
  $snoopy = new Snoopy();  
  $snoopy->fetch($url); //抓取指定的网页
 
  fwrite($handle, $snoopy->results); //把抓取得内容写到 临时文件中
  fclose($handle);
 
  return $tmpfname;
}

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

你可能也喜欢

创建 Docker Swarm 集群

重建 CentOS 或 RHEL 上被损坏的 RPM 数据库

如何退出无响应的 ssh 会话

Maven 中 optional 关键字

WordPress 中的 XML-RPC 和 AtomPub

当 WordPress 搜索只有一篇文章时重定向到该文章

MarkdownEditor 基于浏览器的 Markdown 在线文本编辑器

查看 Linux 内核路由表以及 route 命令的使用

上一篇： This function has none of DETERMINISTIC, NO SQL, or READS SQL DATA in its 错误解决办法

下一篇： Three.js 图层 Layers 对象和 .layers 属性

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

生命进入颠沛而奔忙的本质状态，并将以不断告别和相遇的陈旧方式继续下去。

0 文章

0 评论

84961 人气

关注发私信

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

娇女薄笑

文章 0 评论 0

biaggi

文章 0 评论 0

xiaolangfanhua

文章 0 评论 0

rivulet

文章 0 评论 0

我三岁

文章 0 评论 0

薆情海

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文