- 1.2 环境搭建&安装
- 1.3 项目说明
- 1.4 路由说明
- 1.5 目录结构
- 2.1 模板
- 2.1.1 前台模板
- 2.1.2 后台模板
- 2.1.3 模板标签
- 2.1.3.1 content内容标签
- 2.1.3.2 spf内容标签
- 2.1.3.3 tags内容标签
- 2.1.3.4 comment评论标签
- 2.1.3.5 position推荐位标签
- 2.1.3.6 get数据获取标签
- 2.1.3.7 template模板引入标签
- 2.1.3.8 navigate导航标签
- 2.1.3.9 pre上一篇标签
- 2.1.3.10 next下一篇标签
- 2.1.3.11 blockcache区块缓存标签
- 2.2 行为管理
- 2.2.1 行为规则
- 2.2.2 使用方法
- 2.2.3 测试Behaivor
- 2.3 模块开发
- 2.4.1 权限
- 2.4.2 框架页
- 2.4.3 消息中心
- 2.4.4 登录页安全
- 2.5 请求缓存
- 3.1 Auth
- 3.1.1 通用授权
- 3.1.2 自动登录授权
- 3.1.3 开放平台授权
- 3.2 Wechat
- 3.2.2 v2.x
- 3.3 Area
- 3.3.1 中国区域
- 3.3.2 中国高校
- 3.4 Sms
- 3.4.1 v3
- 3.4.2 v2
- 3.5 Cron
- 3.6 Transport
- 3.6.1 使用
- 3.6.2 最佳实践
- 3.7 Message
- 3.8 Record
- 3.8.1 数据结构
- 3.8.2 使用指南
- 3.9 Wxapp
- 3.10 Log
- 3.11 Alipay
- 3.12 Unionpay
- 3.13 Oss
- 3.14 Chart
- 3.15 Queue
- 3.16 Mirror
- 3.17 Wap
- 3.18 Shop
- 3.19 Search
- 3.20 Addons
- 3.21 Collection
- 3.22 Comment
- 3.23 Domain
- 3.24 Form
- 3.25 Link
- 3.26 Vote
- 3.27 Member
- 4.1 规范和约定
- 4.2 部署指南
- 4.3 常见错误
- 4.4 开发Tips汇总
- 4.4.1 模块
- 4.4.2 自定义后台iconfont
- 4.4.3 自定义成功(失败)页面
- 4.4.4 自定义栏目列表搜索条件
- 4.4.5 根据管理员的权限显示
- 4.5 数据库的存储引擎
- 4.6 行为管理最佳实践
- 4.7 性能优化
- 4.8 ThinkPHP
- 4.8.1 模型
- 4.9.1 发送邮件
- 5.1 系统函数
- 5.2 技术栈
3.21 Collection
采集
采集模块是可以批量采集目标网站内容入库
- 下载安装
- 采集流程
- ★ 添加采集点,填写采集规则
- ★ 采集网址,采集内容
- ★ 发布内容到指定栏目
1、下载安装
从ZTBCMS 模块->模块->模块仓库 中找到采集模块,点击下载。
下载完成后,解压出来,并命名为“Collection”,然后将它copy至项目目录中。
接着在后台本地模块中进行安装。
2、采集流程
位置:内容>内容管理>采集管理
采集流程有三个步骤:
- (1)添加采集点,填写采集规则
- (2)采集网址,采集内容
- (3)发布内容到指定栏目
实例说明:
目标:采集新浪新闻
(1)添加采集点
a、网址规则配置
点击系统上“添加采集点”,可以看到在网址规则上的页面中总共有基本信息和网址采集这两个大项的信息需要填写,在网址采集中的网址类型总共有四种:序列网址、多个网址、单一网页和RSS。以下例子是使用多个网址类型来进行采集。
设置好网址规则之后,测试一下是否正确
b、内容规则配置
内容规则这里看起来比较复杂,其实也很简单,以下为了便于说明,只采集标题、内容两个字段。采集内容网址:从网址规则上获取的网址,打开其中一个网址,然后页面空白处右键->查看网页搜索标题和内容的开始边界。
- 标题采集配置:
从网页<h1 class="main-title"></h1>中获取标题,可以使用规则来去除不必要的字符,如下图:
- 内容采集配置:
新浪新闻的最终页,新闻内容都包含在<div class="article" id="article">[内容]</div><!-- 正文 end -->之间,而且这二个结点,在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图:
过滤选项格式为“要过滤的内容[|]替换值”,要过滤的内容支持正则表达式,每行一条。 同时还支持函数模式,例如:“fun=str_replace|新浪,sina,###”表示对采集的内容执行替换后返回(###表示采集到的内容,多个参数用“,”隔开)。 注:函数可以添加到 Collection 模块目录下的 Funs 文件夹下的 funs.php 文件中。
c、自定义规则
d、高级配置
可设置是否把图片下载到服务器,是否打水印等配置
(2)采集网址、采集内容
采集规则配好以后,即可进行网址的采集,然后进行内容的采集。
采集到的网址:
采集到的内容:
(3)发布内容到指定栏目
选择要导入的栏目
设置采集内容与数据库的字段对应关系提交进行数据入库,在此期间请耐心等待,完成后会自动转向。至此一个简单的采集流程就操作完成。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论