返回介绍

第一个项目

发布于 2023-06-19 21:44:21 字数 8551 浏览 0 评论 0 收藏 0

AI计算平台的第一个项目-开始训练

经过前面两个小节,我们已经了解AI计算平台的一些概念,也已经准备好数据集、模型和训练代码,本小节让我们来演练如何在AI计算平台上,通过简单的操作来运行一个AI计算任务,运行一个AI计算任务,我们归纳为以下三个步骤:

  1. 创建项目
  2. 运行任务
  3. 查看结果
1. 创建项目

请在页面上跟随以下步骤完成第一个项目的创建。

  1. 点击创建项目打开项目创建页面,填写项目名称,比如我们命名为DogVSCat
  2. 编程语言我们用的是Python3.6,算法框架我们用的是PyTorch1.0,依次选择;
  3. 点击选择数据集按钮,在弹出框里,搜索选择DogVSCat数据集;
  4. 点击模型下拉框,选择公开模型,在弹框中选择ResNet模型;
  5. 在项目代码模块,选择【本地上传】按钮,将前一个小节我们提供的代码解压后上传;
  6. 点击创建项目,即可完成项目的创建,项目完成创建后,会自动跳转到项目详情页。

img

2. 创建任务

在项目详情页,点击右上角的【运行】按钮,打开创建任务抽屉。在创建任务抽屉,我们需要设置以下信息:

  1. 镜像:此处我们使用系统推荐的镜像即可;

  2. 队列:此处我们使用默认的default队列;

  3. 计算卡类型:此处可选择空闲的计算卡套餐进行训练;

  4. 计算卡个数:此处可选择1张计算卡进行训练;

  5. 启动命令文本框:是用于输入我们任务的启动命令代码,在本次的演示项目中,我们输入指令如下:

    python dogcat_train.py --arch resnet34 --model /model/systemuser/ResNet/resnet34.pth --train_dataset /data/systemuser/DogVsCat/train --trainval_dataset /data/systemuser/DogVsCat/trainval
    

    说明:以上命令的核心是python dogcat_train.py,后面附带的都是超参数,我们在AI计算平台中可以通过这种方式将一些参数传入代码中,本例为了给大家演示如何获取模型和数据集文件,将这些参数放在超参数中:

    --arch:代表网络结构(默认为resnet18);

    --model:代表本次选择的模型文件路径;

    --train_dataset和--trainval_dataset:分别代表训练集和验证机的文件路径;

  6. 点击【保存并运行任务】按钮,即可提交本次运行任务。

3. 查看结果

在上一步骤提交运行任务后,系统会自动跳转至【运行任务-运行结果】页面,此页面左侧为任务列表,右侧分别为【运行结果】、【任务日志】、【output】、【资源图表】、【系统事件】功能,可通过点击按钮切换查看。

4. TensorBoard可视化分析

AI计算平台平台中运行的任务,可以通过TensorBoard来进行可视化分析,需要如下操作:

  1. 在代码中使用tensorboardX将数据写入到指定目录/output/logs中;
  2. 在【运行任务】界面的操作菜单点击TensorBoard按钮即可查看。

关于TensorBoard面板如何使用,可以参考这篇文章:TensorboardX使用教程 ,需要通外网才能访问。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文