- 1.2 服务介绍
- 1.3.1 概念介绍
- 1.3.2 快速入门
- 1.3.3 申请Quota
- 1.3.4 集群环境
- 1.3.5 Fdsfuse介绍
- 1.3.6 Tensorflow中使用hdfs
- 1.4 客户端使用
- 1.4.1 安装命令行工具
- 1.4.2 使用命令行工具
- 1.4.3 使用Python SDK
- 1.4.4 使用Web控制台
- 1.5 TrainJob功能
- 1.5.1 训练任务组件和流程
- 1.5.2 上手Trainjob
- 1.5.3 使用GPU
- 1.5.4 使用FDS
- 1.5.5 使用Fuse
- 1.5.6 Trainjob高级功能
- 1.5.6.1 分布式训练
- 1.5.6.2 使用前置/后置命令
- 1.5.6.3 自动超参数调优
- 1.5.6.4 自动超参数调优Hpjob
- 1.5.6.5 自动超参数调优Hpjob
- 1.5.6.6 使用自定义镜像
- 1.5.6.7 使用TensorFlow模板应用
- 1.5.6.8 使用HDFS
- 1.5.6.9 使用HDFS FUSE
- 1.6 ModelService功能
- 1.6.1 模型服务使用流程
- 1.6.2 TensorFlow Serving介绍
- 1.6.3 使用GPU模型服务
- 1.6.4 使用多副本和负载均衡
- 1.6.5 在线服务的模型升级
- 1.6.6 模型服务监控
- 1.6.7 使用前置命令和后置命令
- 1.6.8 定制模型服务Docker镜像
- 1.6.9 使用客户端预测
- 1.6.9.1 使用通用gRPC客户端
- 1.6.9.2 使用Python客户端
- 1.6.9.3 使用Java客户端
- 1.6.9.4 使用Scala客户端
- 1.6.9.5 使用Golang客户端
- 1.6.9.6 使用C++客户端
- 1.7 DevEnv功能
- 1.7.1 开发环境使用流程
- 1.7.2 使用命令行管理开发环境
- 1.7.3 使用WEB控制台管理开发环境
- 1.7.4 高级功能
- 1.7.4.1 使用GPU开发环境
- 1.7.4.2 使用FDS FUSE存储
- 1.7.4.3 使用HDFS存储
- 1.7.4.4 使用HDFS FUSE存储
- 1.7.4.5 网络和安全
- 1.7.4.6 监控
- 1.7.4.7 定制开发环境Docker镜像
- 1.7.5 最佳实践
- 1.8 使用率监控
- 1.8.1 GPU使用率监控
- 1.9 TensorboardService功能
- 1.9.1 TensorBoard使用流程
- 1.9.2 TensorBoard介绍
- 1.10 API文档
- 1.10.1 签名规范
- 1.10.2 API文档
- 1.11 问题反馈
- 1.11.1 FAQ
- 1.11.2 技术支持
1.3.1 概念介绍
Region
Region/endpoint是物理上数据中心的划分,以下是Cloud-ML当前已经上线的集群:
Region | endpoint | 中文名称 | 控制台名称 |
---|---|---|---|
cnbj2 | https://cnbj2.cloudml.api.xiaomi.com | 武清机房 | 武清 |
Org
Xiaomi Cloud-ML实现了基于Org的多租户隔离,所有资源归属于固定的Org,用户可以在生态云登录或者创建Org,每个Org都有资源的Quota限额。
个人开发者可以使用默认的Org,团队开发者可以使用“团队管理”功能创建Org,访问Xiaomi Cloud-ML服务时带上特定的Org和AKSK即可。
AKSK
Xiaomi Cloud-ML服务支持生态云的AKSK认证体系,用户请求服务时需要使用Access key和Secret key进行签名,用于服务的认证和授权。
注意每对AKSK标示了Org的身份,每个Org有独立的Quota限额和操作权限,团队开发者需要使用正确的AKSK来访问Xiaomi Cloud-ML服务。
Quota
Xiaomi Cloud-ML服务包含了TrainJob等多种资源,创建资源时可申请CPU、内存和GPU物理资源,对于TrainJob数量、CPU、内存、GPU总量都有固定的Quota配额,开发者可向管理员申请提高Quota配额。
Fds
Fds是小米分布式文件存储服务,Cloud-ML的数据存储依赖于fds,用户提交的训练代码也保存在fds。文档地址:http://docs.api.xiaomi.com/fds/
TrainJob
Train job代表了一个训练任务,类似Hadoop或者Spark中的计算任务。用户提交任务时可以指定Memory、CPU和GPU限制,提交后平台会调度到合适的服务器运行,运行过程中的日志可以通过API获得,训练结果后模型保存在分布式存储中。
API
Xiaomi Cloud-ML对外提供RESTful API接口,可以使用任意的HTTP客户端来访问train job、model service、dev environment等资源,使用时用户需要严格参考API文档使用正确的参数。
Python SDK
Xiaomi Cloud-ML提供了Python SDK,是基于Python实现的HTTP客户端,封装了访问Xiaomi Cloud-ML服务的参数,可以更方便地访问Xiaomi Cloud-ML服务。
命令行工具
cloudml命令行工具是访问Xiaomi Cloud-ML最方便的工具,基于Python SDK实现,在Mac、Linux或Windows操作系统可通过命令来提交train job、部署model service、创建dev environment等。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论