- 1. WebMagic 概览
- 1.1 设计思想
- 1.2 总体架构
- 1.3 项目组成
- 2. 快速开始
- 2.1 使用Maven
- 2.2 不使用Maven
- 2.3 第一个爬虫项目
- 3. 下载和编译源码
- 3.1 下载源码
- 3.2 导入项目
- 3.3 编译和执行源码
- 4. 编写基本的爬虫
- 4.1 实现 PageProcessor
- 4.2 使用 Selectable 抽取元素
- 4.3 使用Pipeline保存结果
- 4.4 爬虫的配置、启动和终止
- 4.5 Jsoup与Xsoup
- 4.6 爬虫的监控
- 4.7 配置代理
- 4.8 处理非 HTTP GET 请求
- 5. 使用注解编写爬虫
- 5.1 编写Model类
- 5.2 TargetUrl与HelpUrl
- 5.3 使用ExtractBy进行抽取
- 5.4 在类上使用ExtractBy
- 5.5 结果的类型转换
- 5.6 一个完整的流程
- 5.7 AfterExtractor
- 6. 组件的使用和定制
- 6.1 使用和定制 Pipeline
- 6.2 使用和定制 Scheduler
- 6.3 使用和定制 Downloader
- 附录:实例分析
- 列表 + 详情的基本页面组合
- 抓取前端渲染的页面
文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
3.2 导入项目
Intellij Idea 默认自带 Maven 支持,import 项目时选择 Maven 项目即可。
3.2.1 使用 m2e 插件
使用 Eclipse 的用户,推荐安装 m2e 插件,安装地址: https://www.eclipse.org/m2e/download/[](https://www.eclipse.org/m2e/download/ )
安装后,在 File->Import 中选择 Maven->Existing Maven Projects 即可导入项目。
导入后看到项目选择界面,点击 finish 即可。
3.2.2 使用 Maven Eclipse 插件
如果没有安装 m2e 插件,只要你安装了 Maven,也是比较好办的。在项目根目录下使用命令:
mvn eclipse:eclipse
生成 maven 项目结构的 eclipse 配置文件,然后在 File->Import 中选择 General->Existing Projects into Workspace 即可导入项目。
导入后看到项目选择界面,点击 finish 即可。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论