运行任务

发布于 2023-06-19 21:44:21 字数 7922 浏览 0 评论 0 收藏 0

一个项目的某次训练作业，我们称之为一次任务，一个项目可以包含多个任务。AI计算平台目前提供4种任务方式：运行任务（批处理作业）、调试任务（SSH模式）、Jupyter任务、分布式任务。

运行批处理任务适用于一次性的训练任务，直接根据关联的数据集、模型、训练代码，选择需要的计算资源，启动任务运行，运行完成后输出结果并关闭任务，同步释放占用的资源。

在项目详情页面，您可以点击【运行】按钮创建批处理任务。

必选项。

镜像是容器中的概念，每个在平台中提交的任务都由一个或多个容器来执行，容器是由镜像创建的运行实例。可以认为镜像打包了一个linux环境，包含了程序运行所需要的各项依赖。

AI计算平台提供了官方的公共镜像，创建训练任务时，系统会根据项目的编程语言和算法框架推荐镜像。您可以使用官方推荐的镜像，也可以使用自己自定义的镜像。

必选项。

默认使用公共的默认default队列，若需要申请专属资源，可主动联系管理员申请专属队列。

必选项。

选择任务运行时的计算卡硬件款型。

必选项。选择任务运行时的GPU硬件资源个数，最少可选择0个，选择0时默认为cpu训练，最多可以选择8个。

必选项。

设置任务运行所需要的命令和超参数，不支持中文字符和换行，随任务的不同而不同。例如：

python train.py

/bin/bash start.sh

cd /userhome && python start.py --output=/userhome/xx

必选项。

设置任务运行所依赖的代码分支。（本地上传的代码无需选择此条）

参数填写完成后，点击【保存并运行任务】（下次打开抽屉时会记录上次填写记录）完成任务创建。创建完成后，自动跳转至任务详情。此时任务处于【等待】状态，等待系统调度资源。

当分配到资源后，任务状态会变为【运行中】，您可以实时查看任务日志。

同时平台集成了【tensorboard】功能实时监控训练情况，可以通过TensorBoard来进行可视化分析，需要如下操作：

任务运行完成后，您可以在【output】页面查看任务的运行结果，支持对结果下载至本地或生成数据集或模型。

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据