第一个项目
AI计算平台的第一个项目-开始训练
经过前面两个小节,我们已经了解AI计算平台的一些概念,也已经准备好数据集、模型和训练代码,本小节让我们来演练如何在AI计算平台上,通过简单的操作来运行一个AI计算任务,运行一个AI计算任务,我们归纳为以下三个步骤:
- 创建项目
- 运行任务
- 查看结果
1. 创建项目
请在页面上跟随以下步骤完成第一个项目的创建。
- 点击创建项目打开项目创建页面,填写项目名称,比如我们命名为
DogVSCat
; - 编程语言我们用的是Python3.6,算法框架我们用的是PyTorch1.0,依次选择;
- 点击选择数据集按钮,在弹出框里,搜索选择
DogVSCat
数据集; - 点击模型下拉框,选择公开模型,在弹框中选择
ResNet
模型; - 在项目代码模块,选择【本地上传】按钮,将前一个小节我们提供的代码解压后上传;
- 点击创建项目,即可完成项目的创建,项目完成创建后,会自动跳转到项目详情页。
2. 创建任务
在项目详情页,点击右上角的【运行】按钮,打开创建任务抽屉。在创建任务抽屉,我们需要设置以下信息:
镜像:此处我们使用系统推荐的镜像即可;
队列:此处我们使用默认的default队列;
计算卡类型:此处可选择空闲的计算卡套餐进行训练;
计算卡个数:此处可选择1张计算卡进行训练;
启动命令文本框:是用于输入我们任务的启动命令代码,在本次的演示项目中,我们输入指令如下:
python dogcat_train.py --arch resnet34 --model /model/systemuser/ResNet/resnet34.pth --train_dataset /data/systemuser/DogVsCat/train --trainval_dataset /data/systemuser/DogVsCat/trainval
说明:以上命令的核心是
python dogcat_train.py
,后面附带的都是超参数,我们在AI计算平台中可以通过这种方式将一些参数传入代码中,本例为了给大家演示如何获取模型和数据集文件,将这些参数放在超参数中:--arch:代表网络结构(默认为resnet18);
--model:代表本次选择的模型文件路径;
--train_dataset和--trainval_dataset:分别代表训练集和验证机的文件路径;
点击【保存并运行任务】按钮,即可提交本次运行任务。
3. 查看结果
在上一步骤提交运行任务后,系统会自动跳转至【运行任务-运行结果】页面,此页面左侧为任务列表,右侧分别为【运行结果】、【任务日志】、【output】、【资源图表】、【系统事件】功能,可通过点击按钮切换查看。
4. TensorBoard可视化分析
AI计算平台平台中运行的任务,可以通过TensorBoard来进行可视化分析,需要如下操作:
- 在代码中使用tensorboardX将数据写入到指定目录
/output/logs
中; - 在【运行任务】界面的操作菜单点击TensorBoard按钮即可查看。
关于TensorBoard面板如何使用,可以参考这篇文章:TensorboardX使用教程 ,需要通外网才能访问。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论