返回介绍

1.5 TrainJob功能

发布于 2020-10-01 16:39:37 字数 4775 浏览 912 评论 0 收藏 0

前面几章介绍了Cloud-ML的一些概念,相信大家对下面这些术语和工具已经有所了解:

  1. Org及AKSK;
  2. Cloud-ML的四个任务类型,Trainjob,Dev, ModelService 和 TensorBoard,并了解这几个任务的区别;
  3. 安装了Cloud-ML SDK;
  4. 已经申请了Quota;
  5. 了解目前Cloud-ML的集群环境。

这一部分我们详细介绍Cloud-ML Trainjob的功能,将涵盖以下五部分内容:

第一部分:Trainjob 基本组件和训练流程 我们将介绍使用Cloud-ML Trainjob 所需要的基本要素和基本流程。

第二部分:上手Trainjob 我们以Tensorflow为例,实现一个简单的线性回归模型,通过这个例子,我们将介绍Cloud-ML Trainjob 最基本的使用方法,包括怎么使用命令行或Web界面提交任务,怎样查看已提交的任务列表,怎样查看任务事件和log以及删除不需要的任务;

第三部分:使用GPU GPU 设备可以用来加速训练,这一部分我们将介绍怎样通过 Cloud-ML 使用 GPU 进行训练;

第四部分:使用FDS 训练任务离不开训练数据,训练的结果也需要及时保存,这一部分我们将介绍怎样从FDS获取数据及保存训练结果到FDS;

第五部分:使用FDS FUSE 使用FDS可以实现数据的持久化,但是也存在一些问题,比如受限于特定的框架。为了更通用的解决持久化问题,可以使用Fuse功能。

第六部分:高级功能 这一部分我们介绍Cloud-ML提供的一些高级训练功能,包括(注意,下面这些功能有些依赖深度学习框架本身提供,具体差别会在详细介绍中列出):1)分布式训练; 2)自动超参数调优; 3)使用自定义镜像; 4)使用Tensorflow模板应用

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文