- 1.2 服务介绍
- 1.3.1 概念介绍
- 1.3.2 快速入门
- 1.3.3 申请Quota
- 1.3.4 集群环境
- 1.3.5 Fdsfuse介绍
- 1.3.6 Tensorflow中使用hdfs
- 1.4 客户端使用
- 1.4.1 安装命令行工具
- 1.4.2 使用命令行工具
- 1.4.3 使用Python SDK
- 1.4.4 使用Web控制台
- 1.5 TrainJob功能
- 1.5.1 训练任务组件和流程
- 1.5.2 上手Trainjob
- 1.5.3 使用GPU
- 1.5.4 使用FDS
- 1.5.5 使用Fuse
- 1.5.6 Trainjob高级功能
- 1.5.6.1 分布式训练
- 1.5.6.2 使用前置/后置命令
- 1.5.6.3 自动超参数调优
- 1.5.6.4 自动超参数调优Hpjob
- 1.5.6.5 自动超参数调优Hpjob
- 1.5.6.6 使用自定义镜像
- 1.5.6.7 使用TensorFlow模板应用
- 1.5.6.8 使用HDFS
- 1.5.6.9 使用HDFS FUSE
- 1.6 ModelService功能
- 1.6.1 模型服务使用流程
- 1.6.2 TensorFlow Serving介绍
- 1.6.3 使用GPU模型服务
- 1.6.4 使用多副本和负载均衡
- 1.6.5 在线服务的模型升级
- 1.6.6 模型服务监控
- 1.6.7 使用前置命令和后置命令
- 1.6.8 定制模型服务Docker镜像
- 1.6.9 使用客户端预测
- 1.6.9.1 使用通用gRPC客户端
- 1.6.9.2 使用Python客户端
- 1.6.9.3 使用Java客户端
- 1.6.9.4 使用Scala客户端
- 1.6.9.5 使用Golang客户端
- 1.6.9.6 使用C++客户端
- 1.7 DevEnv功能
- 1.7.1 开发环境使用流程
- 1.7.2 使用命令行管理开发环境
- 1.7.3 使用WEB控制台管理开发环境
- 1.7.4 高级功能
- 1.7.4.1 使用GPU开发环境
- 1.7.4.2 使用FDS FUSE存储
- 1.7.4.3 使用HDFS存储
- 1.7.4.4 使用HDFS FUSE存储
- 1.7.4.5 网络和安全
- 1.7.4.6 监控
- 1.7.4.7 定制开发环境Docker镜像
- 1.7.5 最佳实践
- 1.8 使用率监控
- 1.8.1 GPU使用率监控
- 1.9 TensorboardService功能
- 1.9.1 TensorBoard使用流程
- 1.9.2 TensorBoard介绍
- 1.10 API文档
- 1.10.1 签名规范
- 1.10.2 API文档
- 1.11 问题反馈
- 1.11.1 FAQ
- 1.11.2 技术支持
文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
1.7.5 最佳实践
简介
本章节介绍开发环境使用过程中总结的使用经验和最佳实践。
实例规格
开发环境提供了多种实例规格(CPU/内存/GPU),以满足用户不同的需求。
- 通过WEB控制台创建开发环境时,我们已经为您提供了最佳的CPU/内存/GPU配比。当使用命令行工具时,请尽量按照CPU:内存=1:2, 1:4或者1:8的比例。
- 开发环境创建后,不可以改变实例规格。建议创建开发环境时,预估需要的硬件资源。CPU和GPU不足的情况,通常不会产生严重后果,内存不足会导致实例崩溃重启。
- 一个开发环境实例最多可以使用4个GPU。
存储
开发环境内现在提供了两种文件存储:临时文件存储和基于FDS FUSE的持久化存储。两种类型的存储各有优缺点:
- 开发环境运行在Docker容器中,所有的默认文件会存储在容器的文件系统中。优点是文件读写速度快。缺点是文件随着开发环境的关闭会自动销毁,或者在容器重启时丢失。
- 挂载到开发环境的FDS FUSE文件存储,所有文件会保存在远端FDS中。优点是文件持久化保存,不会因开发环境故障发生丢失,可以支持多机同时读写。缺点是速度相对本地文件存储较慢,尤其是对频繁更改的文件性能较差。
因此,建议系统中创建的临时文件,存储在系统默认路径下;需要长久保存的模型和数据,存储在FDS FUSE目录中。 对使用FDS FUSE文件系统的用户,可以从以下几方面提高性能:
- 使用相同机房的开发环境和FDS。相同机房的开发环境使用FDS FUSE的网络性能,高于跨机房访问的网络性能。例如在C3机房创建的开发环境,优先推荐挂载C3机房的FDS bucket。
- 合并多次写操作到一次,能显著提高文件读写速度。用户每次对文件执行Flush操作后,FDS FUSE都会重新上传整个文件。因此合并多次写操作成一次,能减少文件重传次数。
- 避免挂载的FDS bucket中存储超过10000个文件。随着文件数量的增长,FDS FUSE执行
ls
等遍历命令的执行时间成线性增长。建议大量零散的小文件,进行文件合并,或者存储到多个bucket中。
网络和安全
创建开发环境,配置网络和防火墙规则时
- 建议开启SSH(22)连接,从而连接到开发环境内部。
- 最少开放原则。只开放需要访问的端口和IP白名单,不要暴露其他端口给公网
- 认证授权。开发环境的网络端口和防火墙规则只提供虚拟防火墙功能,建议环境内的服务开启认证授权,增强安全性。
资源管理
尽快关闭不需要的开发环境,释放quota资源。
备份和恢复
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论