- 1.2 服务介绍
- 1.3.1 概念介绍
- 1.3.2 快速入门
- 1.3.3 申请Quota
- 1.3.4 集群环境
- 1.3.5 Fdsfuse介绍
- 1.3.6 Tensorflow中使用hdfs
- 1.4 客户端使用
- 1.4.1 安装命令行工具
- 1.4.2 使用命令行工具
- 1.4.3 使用Python SDK
- 1.4.4 使用Web控制台
- 1.5 TrainJob功能
- 1.5.1 训练任务组件和流程
- 1.5.2 上手Trainjob
- 1.5.3 使用GPU
- 1.5.4 使用FDS
- 1.5.5 使用Fuse
- 1.5.6 Trainjob高级功能
- 1.5.6.1 分布式训练
- 1.5.6.2 使用前置/后置命令
- 1.5.6.3 自动超参数调优
- 1.5.6.4 自动超参数调优Hpjob
- 1.5.6.5 自动超参数调优Hpjob
- 1.5.6.6 使用自定义镜像
- 1.5.6.7 使用TensorFlow模板应用
- 1.5.6.8 使用HDFS
- 1.5.6.9 使用HDFS FUSE
- 1.6 ModelService功能
- 1.6.1 模型服务使用流程
- 1.6.2 TensorFlow Serving介绍
- 1.6.3 使用GPU模型服务
- 1.6.4 使用多副本和负载均衡
- 1.6.5 在线服务的模型升级
- 1.6.6 模型服务监控
- 1.6.7 使用前置命令和后置命令
- 1.6.8 定制模型服务Docker镜像
- 1.6.9 使用客户端预测
- 1.6.9.1 使用通用gRPC客户端
- 1.6.9.2 使用Python客户端
- 1.6.9.3 使用Java客户端
- 1.6.9.4 使用Scala客户端
- 1.6.9.5 使用Golang客户端
- 1.6.9.6 使用C++客户端
- 1.7 DevEnv功能
- 1.7.1 开发环境使用流程
- 1.7.2 使用命令行管理开发环境
- 1.7.3 使用WEB控制台管理开发环境
- 1.7.4 高级功能
- 1.7.4.1 使用GPU开发环境
- 1.7.4.2 使用FDS FUSE存储
- 1.7.4.3 使用HDFS存储
- 1.7.4.4 使用HDFS FUSE存储
- 1.7.4.5 网络和安全
- 1.7.4.6 监控
- 1.7.4.7 定制开发环境Docker镜像
- 1.7.5 最佳实践
- 1.8 使用率监控
- 1.8.1 GPU使用率监控
- 1.9 TensorboardService功能
- 1.9.1 TensorBoard使用流程
- 1.9.2 TensorBoard介绍
- 1.10 API文档
- 1.10.1 签名规范
- 1.10.2 API文档
- 1.11 问题反馈
- 1.11.1 FAQ
- 1.11.2 技术支持
1.11.1 FAQ
签名错误
如果出现签名错误,或请求cloud_manager失败,可能是用户使用的AKSK不对,排查步骤如下。
- 登录融合云控制台,查看是否已经创建AKSK。
- 检查本地配置文件
~/.config/xiaomi/config
,检查AKSK是否正确配置。 - 输出环境变量,echo $XIAOMI_ACCESS_KEY_ID,echo $XIAOMI_SECRET_ACCESS_KEY,echo $XIAOMI_CLOUDML_ENDPOINT,确认是否正确配置。
登录到DevEnv环境后,是否会影响其他用户?
不会,用户开发环境通过docker容器隔离,保证TensorFlow版本、用户文件不会相互影响。
DevEnv环境上安装的软件是否会保留?
如果用户退出后重新登录可以访问已有的文件,但用户删除实例后集群会清理容器,用户数据和文件不会保留,用户可以通过制作Docker镜像来启动避免每次都需要重复安装软件。
使用自己的容器镜像启动时是否需要配置AKSK?
目前下载容器镜像不支持配置AKSK,所有镜像都设置public保证服务可下载,因此不需要配置AKSK。
开发环境的训练数据如何指定?
用户可以手动从外网下载训练数据到本地,然后访问本地来训练。而TensorFlow已经支持HDFS和FDS,用户可以直接访问对应的分布式存储而不需要下载数据到本地。如果像Caffe这些框架只能访问本地数据,可以考虑使用FDS fuse或S3 fuse,目前在GPU集群上会有些限制。
开发环境的GPU是否会被其他用户使用?
不会,开发环境的GPU是独占的,不会与其他用户共享。
页面上容器镜像和基础框架/版本是什么内容,有什么的注意事项?
Cloud-ML会预先创建很多镜像,在提交任务的时候,如果不指定镜像,系统会默认使用Tensorflow版本为1.0.0的cpu镜像,如果需要使用其它镜像则需要指定。 有两种方式,一种是通过指定镜像的名称,比如“cr.d.xiaomi.net/cloud-ml/train-caffe2-cpu:0.6.0”, 镜像可以是Cloud-ML提供的标准镜像,也可以是用户自定义的镜像,无论哪种,都必须满足Docker的要求,也就是说,必须能够成功使用“docker pull”命令进行加载。 另一种方式是通过指定框架名称和版本号,Cloud-ML会根据用户提供的信息加载对应的镜像。如果使用这种方式,则只能使用平台提供的标准镜像。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论