Node.js 抓取中文网页乱码的若干问题
使用 iconv-lite 解决 request 乱码问题 Node.js 抓取非 utf-8 的中文网页时会出现乱码问题,比如网易的首页编码是 gb2312,抓取时会出现乱码 var req…
分布式爬虫框架 XXL-CRAWLER
一、简介 1.1 概述 XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有”多线程、异步、IP动态代理、分布式、JS渲染”等特性; 1.2…
QueryList 优雅的渐进式 PHP 采集框架
QueryList 是一个优雅的渐进式PHP采集框架,让采集更简单一点。一套简洁、优雅、可扩展的PHP采集工具(爬虫),基于 phpQuery。 特性 拥有与jQuery完…
Scrapy 基于 Python 快速 高层次的屏幕抓取和 Web 抓取爬虫框架
Scrapy 是 Python 开发的一个快速、高层次的屏幕抓取和 Web 抓取框架,用于抓取 Web 站点并从页面中提取结构化的数据。Scrapy 用途广泛,可以用于数据…
PHP 判断搜索引擎蜘蛛类型
使用 WordPress 博客有必要知道搜索引擎什么时候来过,都看了那些页面,今天就给大家分享一个 PHP 判断搜索引擎蜘蛛类型的函数 function get_naps_bot…
- 共 1 页
- 1