- 1.2 服务介绍
- 1.3.1 概念介绍
- 1.3.2 快速入门
- 1.3.3 申请Quota
- 1.3.4 集群环境
- 1.3.5 Fdsfuse介绍
- 1.3.6 Tensorflow中使用hdfs
- 1.4 客户端使用
- 1.4.1 安装命令行工具
- 1.4.2 使用命令行工具
- 1.4.3 使用Python SDK
- 1.4.4 使用Web控制台
- 1.5 TrainJob功能
- 1.5.1 训练任务组件和流程
- 1.5.2 上手Trainjob
- 1.5.3 使用GPU
- 1.5.4 使用FDS
- 1.5.5 使用Fuse
- 1.5.6 Trainjob高级功能
- 1.5.6.1 分布式训练
- 1.5.6.2 使用前置/后置命令
- 1.5.6.3 自动超参数调优
- 1.5.6.4 自动超参数调优Hpjob
- 1.5.6.5 自动超参数调优Hpjob
- 1.5.6.6 使用自定义镜像
- 1.5.6.7 使用TensorFlow模板应用
- 1.5.6.8 使用HDFS
- 1.5.6.9 使用HDFS FUSE
- 1.6 ModelService功能
- 1.6.1 模型服务使用流程
- 1.6.2 TensorFlow Serving介绍
- 1.6.3 使用GPU模型服务
- 1.6.4 使用多副本和负载均衡
- 1.6.5 在线服务的模型升级
- 1.6.6 模型服务监控
- 1.6.7 使用前置命令和后置命令
- 1.6.8 定制模型服务Docker镜像
- 1.6.9 使用客户端预测
- 1.6.9.1 使用通用gRPC客户端
- 1.6.9.2 使用Python客户端
- 1.6.9.3 使用Java客户端
- 1.6.9.4 使用Scala客户端
- 1.6.9.5 使用Golang客户端
- 1.6.9.6 使用C++客户端
- 1.7 DevEnv功能
- 1.7.1 开发环境使用流程
- 1.7.2 使用命令行管理开发环境
- 1.7.3 使用WEB控制台管理开发环境
- 1.7.4 高级功能
- 1.7.4.1 使用GPU开发环境
- 1.7.4.2 使用FDS FUSE存储
- 1.7.4.3 使用HDFS存储
- 1.7.4.4 使用HDFS FUSE存储
- 1.7.4.5 网络和安全
- 1.7.4.6 监控
- 1.7.4.7 定制开发环境Docker镜像
- 1.7.5 最佳实践
- 1.8 使用率监控
- 1.8.1 GPU使用率监控
- 1.9 TensorboardService功能
- 1.9.1 TensorBoard使用流程
- 1.9.2 TensorBoard介绍
- 1.10 API文档
- 1.10.1 签名规范
- 1.10.2 API文档
- 1.11 问题反馈
- 1.11.1 FAQ
- 1.11.2 技术支持
1.7.4.4 使用HDFS FUSE存储
简介
HDFS FUSE是基于FUSE的文件系统,允许挂载HDFS上的文件目录到本地文件系统。用户读写本地文件,后台会自动同步到HDFS上。 开发环境中使用HDFS FUSE用法与训练任务类似,训练任务中对应部分可参考 在TrainJob中使用HDFS FUSE 。
目前,下列框架和版本中已经集成了HDFS FUSE功能。
- Tensorflow 1.6.0-xm1.0.0 (docker image名称:cnbj6-repo.cloud.mi.com/cloud-ml/tensorflow-gpu:1.6.0-xm1.0.0)
- Tensorflow 1.7.0-xm1.0.0 (docker image名称:cnbj6-repo.cloud.mi.com/cloud-ml/tensorflow-gpu:1.7.0-xm1.0.0)
- Tensorflow 1.8.0-xm1.0.0 (docker image名称:cnbj6-repo.cloud.mi.com/cloud-ml/tensorflow-gpu:1.8.0-xm1.0.0)
- Tensorflow 1.9.0-xm1.0.0 (docker image名称:cnbj6-repo.cloud.mi.com/cloud-ml/tensorflow-gpu:1.9.0-xm1.0.0)
可以在CLI或WEB创建训练任务时,指定HDFS FUSE参数。
创建时自动挂载HDFS存储
创建开发环境时,可以指定FDS bucket参数,开发环境创建成功后会自动挂载该bucket到系统中(默认/hdfs目录)。
- 使用命令行工具创建开发环境时,使用下列参数:
cloudml dev create -n mydev -p mypassword -hka s_test@XIAOMI.HADOOP -hkp myhdfspassword -he hdfs://c3prc-hadoop -d cnbj6-repo.cloud.mi.com/cloud-ml/tensorflow-gpu:1.6.0-xm1.0.0
-hka HDFS_KRB_ACCOUNT, --hdfs_krb_account HDFS_KRB_ACCOUNT
: 指定HDFS的kerberos账号;-hkp HDFS_KRB_PASSWORD, --hdfs_krb_password HDFS_KRB_PASSWORD
: 指定HDFS的kerberos密码;-he HDFS_ENDPOINT, --hdfs_endpoint HDFS_ENDPOINT
: 指定HDFS集群地址,例如HDFS C3机房地址是hdfs://c3prc-hadoop。使用WEB控制台创建开发环境时,选择
HDFS Region
,并填写hdfs kerberos账户名和密码。
手工挂载HDFS存储
对运行状态的开发环境,可以登录到环境中,手工挂载HDFS存储。
首先,SSH连接登录到开发环境内部
我们已经预装了挂载HDFS FUSE需要的软件,只需要设置环境变量,执行下面的命令即可。
$HADOOP_ROOT/fuse-dfs/fuse_dfs_wrapper.sh [HDFS Region] [本地目录名] [OPTION]
例如, 执行下列命令挂载C3机房
中账户s_test@XIAOMI.HADOOP
的HDFS目录到本地/hdfs
目录
export XIAOMI_HDFS_ENDPOINT="hdfs://c3prc-hadoop"
export XIAOMI_HDFS_KRB_ACCOUNT="s_test@XIAOMI.HADOOP"
export XIAOMI_HDFS_KRB_PASSWORD="myhdfspassword"
mkdir /hdfs
echo $XIAOMI_HDFS_KRB_PASSWORD | kinit $XIAOMI_HDFS_KRB_ACCOUNT && $HADOOP_ROOT/fuse-dfs/fuse_dfs_wrapper.sh $XIAOMI_HDFS_ENDPOINT /hdfs -o allow_other
XIAOMI_HDFS_ENDPOINT
是HDFS集群地址,例如HDFS C3机房地址是hdfs://c3prc-hadoop。XIAOMI_HDFS_KRB_ACCOUNT
,XIAOMI_HDFS_KRB_PASSWORD
是HDFS kerberos账户名称和密码。/hdfs
是本地挂载点目录,和普通数据卷的挂载点相同,用户可以使用任意本地目录作为挂载点。挂载完成后,可以使用Linux
df
命令查看挂载是否成功。出现类似下面类型是fdsfuse,并且对应挂载点的文件系统即表示挂载成功。用户就可以进入本地挂载目录去访问存储在HDFS中的对象。root@1d33c0a7ff91:/# df -h Filesystem Size Used Avail Use% Mounted on none 902G 344G 513G 41% / tmpfs 7.8G 0 7.8G 0% /dev tmpfs 7.8G 0 7.8G 0% /sys/fs/cgroup shm 64M 0 64M 0% /dev/shm fdsfuse 256T 0 256T 0% /hdfs
卸载已挂载的HDFS存储
执行umount
命令可以卸载已经挂载的HDFS存储。卸载后,HDFS上存储的文件不会删除。
umount [本地目录名]
例如, 执行下列命令卸载已挂载到/hdfs
目录的HDFS FUSE存储
umount /hdfs
使用限制
暂无
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论