返回介绍

运行任务

发布于 2023-06-19 21:44:21 字数 7922 浏览 0 评论 0 收藏 0

运行批处理任务功能介绍

一个项目的某次训练作业,我们称之为一次任务,一个项目可以包含多个任务。AI计算平台目前提供4种任务方式:运行任务(批处理作业)、调试任务(SSH模式)、Jupyter任务、分布式任务。

运行批处理任务适用于一次性的训练任务,直接根据关联的数据集、模型、训练代码,选择需要的计算资源,启动任务运行,运行完成后输出结果并关闭任务,同步释放占用的资源。

在项目详情页面,您可以点击【运行】按钮创建批处理任务。

参数填写说明
  • 镜像

​ 必选项。

​ 镜像是容器中的概念,每个在平台中提交的任务都由一个或多个容器来执行,容器是由镜像创建的运行实例。可以认为镜像打包了一个linux环境,包含了程序运行所需要的各项依赖。

​ AI计算平台提供了官方的公共镜像,创建训练任务时,系统会根据项目的编程语言和算法框架推荐镜像。您可以使用官方推荐的镜像,也可以使用自己自定义的镜像。

  • 队列

​ 必选项。

​ 默认使用公共的默认default队列,若需要申请专属资源,可主动联系管理员申请专属队列。

  • 计算卡类型

​ 必选项。

​ 选择任务运行时的计算卡硬件款型。

  • 计算卡个数

​ 必选项。 ​ 选择任务运行时的GPU硬件资源个数,最少可选择0个,选择0时默认为cpu训练,最多可以选择8个。

  • 启动命令

​ 必选项。

​ 设置任务运行所需要的命令和超参数,不支持中文字符和换行,随任务的不同而不同。例如:

python train.py

/bin/bash start.sh

cd /userhome && python start.py --output=/userhome/xx

  • 引用代码

​ 必选项。

​ 设置任务运行所依赖的代码分支。(本地上传的代码无需选择此条)

​ 参数填写完成后,点击【保存并运行任务】(下次打开抽屉时会记录上次填写记录)完成任务创建。创建完成后,自动跳转至任务详情。此时任务处于【等待】状态,等待系统调度资源。

​ 当分配到资源后,任务状态会变为【运行中】,您可以实时查看任务日志。

同时平台集成了【tensorboard】功能实时监控训练情况,可以通过TensorBoard来进行可视化分析,需要如下操作:

  1. 在代码中使用tensorboardX将数据写入到指定目录/output/logs中;
  2. 在【运行任务】界面的操作菜单点击TensorBoard按钮即可查看。

任务运行完成后,您可以在【output】页面查看任务的运行结果,支持对结果下载至本地或生成数据集或模型。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文