Ceph 的 Hadoop 存档实用程序替代方案
我的基于 HDFS 的存储上有一些 HAR 文件(Hadoop 存档文件),其中有一些不经常使用的存档数据。
现在我们计划转向基于 Ceph 的存储。所以我有两个问题:
- 我可以以某种方式在 Ceph 上使用现有的 HAR 文件吗?
- CEPH 是否有一些归档实用程序,就像 HDFS 有 Hadoop Archive 实用程序一样?
谢谢
I have some HAR files (Hadoop archive files) on my HDFS based storage, which have some archived data that is not frequently used.
Now we have a plan to move to CEPH based storage. So I have 2 questions:
- Can I somehow use my existing HAR files on CEPH?
- Does CEPH have some archive utility like HDFS has Hadoop Archive utility?
Thanks
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我已经有一段时间没有使用 Hadoop,但我可以回答以下问题:
我可以以某种方式在 CEPH 上使用现有的 HAR 文件吗?
虽然我确信 Ceph 中没有对 HAR 的官方支持,但我认为它仍然是可能的,因为 Ceph 文件系统可以用作 Hadoop 文件系统 (HDFS) 的直接替代品。
CEPH 是否有一些存档实用程序,就像 HDFS 有 Hadoop 存档实用程序一样?
自从我每天使用 Ceph 以来,我在 Ceph 中还没有遇到过任何类似于 HAR 的归档实用程序。如您所知,HAR 使用 .tar 扩展名。因此,我一直在做的是使用压缩的 tarball。对于块设备,我将 tarball 存储为 Ceph RBD(rados 块设备) 卷。如果我使用对象,我会将 tarball 存档为 RGW 对象。
为了进一步帮助您,我分享了一些有用的线程来深入挖掘:
优化小文件性能:将小文件存储在“superchunks”中[功能]
<一href="https://wiki.softwareheritage.org/wiki/A_practical_approach_to_efficiently_store_100_billions_small_objects_in_Ceph" rel="nofollow noreferrer">在 Ceph 中高效存储 1000 亿个小对象的实用方法
在 Ceph 中存储 200 亿个不可变对象,75% <16KB
It's been a while since I have used Hadoop but I can answer following questions:
Can I somehow use my existing HAR files on CEPH?
Although I am sure there is no official support for HAR in Ceph, I think its still possible since Ceph file system can be used as a drop-in replacement for the Hadoop File System (HDFS).
Does CEPH have some archive utility like HDFS has Hadoop Archive utility?
Since I use Ceph on daily basis, I have not come across any such archive utility in Ceph similar to HAR. As you know, HAR uses .tar extension. Therefore, what I have been doing is using compressed tarballs. For block devices I store the tarballs as Ceph RBD (rados block device) volumes. And if I am working with Objects, I archive the tarballs as RGW objects.
In order to help you further I am sharing some useful threads to dig deeper:
optimise small files performance: store small files in "superchunks" [feature]
A practical approach to efficiently store 100 billions small objects in Ceph
Storing 20 billions of immutable objects in Ceph, 75% <16KB