- 1.2 服务介绍
- 1.3.1 概念介绍
- 1.3.2 快速入门
- 1.3.3 申请Quota
- 1.3.4 集群环境
- 1.3.5 Fdsfuse介绍
- 1.3.6 Tensorflow中使用hdfs
- 1.4 客户端使用
- 1.4.1 安装命令行工具
- 1.4.2 使用命令行工具
- 1.4.3 使用Python SDK
- 1.4.4 使用Web控制台
- 1.5 TrainJob功能
- 1.5.1 训练任务组件和流程
- 1.5.2 上手Trainjob
- 1.5.3 使用GPU
- 1.5.4 使用FDS
- 1.5.5 使用Fuse
- 1.5.6 Trainjob高级功能
- 1.5.6.1 分布式训练
- 1.5.6.2 使用前置/后置命令
- 1.5.6.3 自动超参数调优
- 1.5.6.4 自动超参数调优Hpjob
- 1.5.6.5 自动超参数调优Hpjob
- 1.5.6.6 使用自定义镜像
- 1.5.6.7 使用TensorFlow模板应用
- 1.5.6.8 使用HDFS
- 1.5.6.9 使用HDFS FUSE
- 1.6 ModelService功能
- 1.6.1 模型服务使用流程
- 1.6.2 TensorFlow Serving介绍
- 1.6.3 使用GPU模型服务
- 1.6.4 使用多副本和负载均衡
- 1.6.5 在线服务的模型升级
- 1.6.6 模型服务监控
- 1.6.7 使用前置命令和后置命令
- 1.6.8 定制模型服务Docker镜像
- 1.6.9 使用客户端预测
- 1.6.9.1 使用通用gRPC客户端
- 1.6.9.2 使用Python客户端
- 1.6.9.3 使用Java客户端
- 1.6.9.4 使用Scala客户端
- 1.6.9.5 使用Golang客户端
- 1.6.9.6 使用C++客户端
- 1.7 DevEnv功能
- 1.7.1 开发环境使用流程
- 1.7.2 使用命令行管理开发环境
- 1.7.3 使用WEB控制台管理开发环境
- 1.7.4 高级功能
- 1.7.4.1 使用GPU开发环境
- 1.7.4.2 使用FDS FUSE存储
- 1.7.4.3 使用HDFS存储
- 1.7.4.4 使用HDFS FUSE存储
- 1.7.4.5 网络和安全
- 1.7.4.6 监控
- 1.7.4.7 定制开发环境Docker镜像
- 1.7.5 最佳实践
- 1.8 使用率监控
- 1.8.1 GPU使用率监控
- 1.9 TensorboardService功能
- 1.9.1 TensorBoard使用流程
- 1.9.2 TensorBoard介绍
- 1.10 API文档
- 1.10.1 签名规范
- 1.10.2 API文档
- 1.11 问题反馈
- 1.11.1 FAQ
- 1.11.2 技术支持
1.3.2 快速入门
简介
Xiaomi Cloud-ML提供深度学习平台服务,用户只需要编写TensorFlow应用的模型代码,就可以提交到云端训练,并且启动模型服务进行预测。
安装客户端
参考 安装命令行工具 初始化客户端运行环境。
配置客户端
用户需要获取生态云的Access key和Secret key,使用下面的命令初始化。
cloudml init
用户配置会自动保存到 ~/.config/xiaomi/config
文件中,或者通过环境变量的方式初始化AKSK。
export XIAOMI_ACCESS_KEY_ID="AKPFUTXXXXXXLIPXVG"
export XIAOMI_SECRET_ACCESS_KEY="JDv8ER5CocaISnLXXXXXXXXXXaXfyOpjz8nrLsuB"
export XIAOMI_CLOUDML_ENDPOINT="https://cnbj3-cloud-ml.api.xiaomi.net"
# 默认使用的fds endpoint,参考<http://docs.api.xiaomi.com/fds/basic-concept.html>
export XIAOMI_FDS_ENDPOINT="cnbj2.fds.api.xiaomi.com"
# 使用fdsfuse默认挂载到服务端的bucket
export CLOUDML_DEFAULT_FDS_BUCKET="cloud-ml"
注意:XIAOMI_CLOUDML_ENDPOINT
需要根据集群不同配置不同的值,请参考“集群环境”。
编写模型代码
用户可以编写深度学习模型代码,代码规范与社区版TensorFlow兼容,使用标准Python模块方式打包即可。
我们也提供samples项目例子,可参考 https://github.com/XiaoMi/cloud-ml-sdk 。
下面是一个线性模型的项目实例,可以直接运行下面的命令进行测试和提交。
mkdir trainer
touch trainer/__init__.py
curl "https://raw.githubusercontent.com/XiaoMi/cloud-ml-sdk/master/cloud_ml_samples/tensorflow/linear_regression/trainer/task.py" > trainer/task.py
然后在本地测试和验证TensorFlow应用的功能,注意Xiaomi Cloud-ML支持标准的TensorFlow应用,本地能运行的代码在云端也能运行,提交前需在本地测试通过。
python -m trainer.task
打包模型代码
我们接着打包这个Python模块,保存为tar.gz文件。
cat << EOF > setup.py
import setuptools
setuptools.setup(name='trainer', version='1.0', packages=['trainer'])
EOF
python setup.py sdist --format=gztar
然后上传模型代码到FDS服务,可以使用生态云的控制台或者FDS命令行工具。
FDS路径格式
上传到fds的文件路径的格式为fds://{bucket_name}/path/to/file
。
比如假设用户的bucket name是cloud-ml,数据放在这个bucket的test/README路径下,那么fds的文件路径格式为:
fds://cloud-ml/test/README
提交训练任务
使用下面的命令提交训练任务,假设用户创建的bucket为 cloud-ml
并且上传模型代码到 fds://cloud-ml/linear/trainer-1.0.tar.gz
路径。
cloudml jobs submit -n linear -m trainer.task -u fds://cloud-ml/linear/trainer-1.0.tar.gz -a "--model_path fds://cloud-ml/linear_model --output_path fds://cloud-ml/linear_tensorboard"
提交任务时,指定 model_path
表示模型导出的路径,指定 output_path
表示导出TensorBoard文件的路径,必须是用户有权限读写的FDS路径。
提交任务后,我们可以通过命令行工具查看训练任务的状态和日志。
cloudml jobs list
cloudml jobs logs linear
创建TensorBoard服务
未上线
创建模型服务
未上线
在线预测
未上线
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论