- 1.2 服务介绍
- 1.3.1 概念介绍
- 1.3.2 快速入门
- 1.3.3 申请Quota
- 1.3.4 集群环境
- 1.3.5 Fdsfuse介绍
- 1.3.6 Tensorflow中使用hdfs
- 1.4 客户端使用
- 1.4.1 安装命令行工具
- 1.4.2 使用命令行工具
- 1.4.3 使用Python SDK
- 1.4.4 使用Web控制台
- 1.5 TrainJob功能
- 1.5.1 训练任务组件和流程
- 1.5.2 上手Trainjob
- 1.5.3 使用GPU
- 1.5.4 使用FDS
- 1.5.5 使用Fuse
- 1.5.6 Trainjob高级功能
- 1.5.6.1 分布式训练
- 1.5.6.2 使用前置/后置命令
- 1.5.6.3 自动超参数调优
- 1.5.6.4 自动超参数调优Hpjob
- 1.5.6.5 自动超参数调优Hpjob
- 1.5.6.6 使用自定义镜像
- 1.5.6.7 使用TensorFlow模板应用
- 1.5.6.8 使用HDFS
- 1.5.6.9 使用HDFS FUSE
- 1.6 ModelService功能
- 1.6.1 模型服务使用流程
- 1.6.2 TensorFlow Serving介绍
- 1.6.3 使用GPU模型服务
- 1.6.4 使用多副本和负载均衡
- 1.6.5 在线服务的模型升级
- 1.6.6 模型服务监控
- 1.6.7 使用前置命令和后置命令
- 1.6.8 定制模型服务Docker镜像
- 1.6.9 使用客户端预测
- 1.6.9.1 使用通用gRPC客户端
- 1.6.9.2 使用Python客户端
- 1.6.9.3 使用Java客户端
- 1.6.9.4 使用Scala客户端
- 1.6.9.5 使用Golang客户端
- 1.6.9.6 使用C++客户端
- 1.7 DevEnv功能
- 1.7.1 开发环境使用流程
- 1.7.2 使用命令行管理开发环境
- 1.7.3 使用WEB控制台管理开发环境
- 1.7.4 高级功能
- 1.7.4.1 使用GPU开发环境
- 1.7.4.2 使用FDS FUSE存储
- 1.7.4.3 使用HDFS存储
- 1.7.4.4 使用HDFS FUSE存储
- 1.7.4.5 网络和安全
- 1.7.4.6 监控
- 1.7.4.7 定制开发环境Docker镜像
- 1.7.5 最佳实践
- 1.8 使用率监控
- 1.8.1 GPU使用率监控
- 1.9 TensorboardService功能
- 1.9.1 TensorBoard使用流程
- 1.9.2 TensorBoard介绍
- 1.10 API文档
- 1.10.1 签名规范
- 1.10.2 API文档
- 1.11 问题反馈
- 1.11.1 FAQ
- 1.11.2 技术支持
1.5.1 训练任务组件和流程
Trainjob 基本组件和训练流程
下图是使用 Cloud-ML Trainjob 的基本组件和训练流程。其中1,2,3为用户操作步骤,a,b,c 为平台处理流程。
Cloud-ML Trainjob 的运行依赖两个外部基础设施,Docker Registry 和 FDS,其中 Docker Registry 管理 Docker 镜像。Cloud-ML 平台已经预先定义的许多深度学习框架的镜像存储其中,用户也可以把自己的镜像托管进来,由Cloud-ML平台执行;FDS是Cloud-ML依赖的后端存储系统,用户的训练数据,训练的中间数据、结果、日志等,如果需要保存,用户指定地址,Cloud-ML自动存储。
Trainjob
训练用户的基本操作过程如下:
1. 准备代码,用户需要在本地准备一份调试好的训练代码,要确保符合基本项目规范。具体参见后面介绍;
2. 提交任务,项目代码准备完成后,用户即可提交任务。目前Cloud-ML提供两种任务提交方式,命令行和Web界面,后面有详细介绍;
3. 查看结果,后续用户随时可以通过命令行或者 Web 页面查看训练任务状态,包括训练模型及其他产出。
Trainjob
训练平台的基本处理流程如下:
a. 创建环境,平台收到用户提交的任务后, 从 Docker Registry 中下载用户指定的镜像,并为用户创建运行时;如果一切正常,执行后面的操作;有任何异常,比如资源不足,节点故障,Cloud-ML会通过事件的方式告诉用户;
b. 执行训练,运行环境创建完成后,平台下载用户指定的训练代码并执行。内部的逻辑是,下载代码、解压、安装依赖包(如果代码里面指定了所需的依赖包)、执行代码,执行过程产生的日志,平台提供接口方便用户查看;
c. 保存训练模型和(/或)中间结果,这一步可选。用户训练过程中如果有需要保存的中间结果、临时数据、日志等需要保存,平台将结果保存到用户指定的地方,供训练后使用。
注: Cloud-ML 的运行时由 Docker 管理,所有任务都运行于容器中,Cloud-ML 已经准备了许多深度学习框架的镜像,用户直接指定对应版本镜像名称即可;对于有特殊需求的用户,Cloud-ML 支持使用自己制作的镜像。
在接下来的几个部分,我们将通过教程的形式,一步一步让用户上手Cloud-ML平台。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论