当前位置：文江博客话题详情

Cassandra 有什么好的批量数据加载工具

发布于 2024-11-05 06:36:57 字数 105 浏览 3 评论 0原文

我正在寻找一个将 CSV 加载到 Cassandra 中的工具。我本来希望使用 RazorSQL 来完成此任务，但我被告知这需要几个月的时间。

什么是好工具？

谢谢

需要登录才能够评论，你可以免费注册一个本站的账号。

想挽留 2024-11-12 06:36:57

1) 如果您已准备好所有要加载的数据，您可以尝试使用 sstableloader（仅适用于 cassandra 0.8.x 及以上版本）实用程序批量加载数据。有关更多详细信息，请参阅：cassandra 批量加载器

2) Cassandra在最新版本 cassandra-1.1.x 开始，引入了 BulkOutputFormat 通过 hadoop 作业将数据批量加载到 cassandra 中。
有关更多详细信息，请参阅：使用 Hadoop 批量加载到 Cassandra

小草泠泠 2024-11-12 06:36:57

我怀疑工具支持是否能在很大程度上帮助解决这个问题，因为 Cassandra 架构需要反映您想要运行的查询，而不仅仅是您域的通用模型。

cassandra 的内置批量加载机制是通过 BinaryMemtables 实现的： http://wiki.apache.org/cassandra/ BinaryMemtable

但是，无论您使用此接口还是更常用的 Thrift 接口，您仍然可能需要手动设计从 CSV 到 Cassandra ColumnFamilies 的映射，同时考虑到您的查询需要运行。来自 CSV-> 的通用映射Cassandra 可能不合适，因为通常需要二级索引和非规范化。

爱她像谁 2024-11-12 06:36:57

对于 Cassandra 1.1.3 及更高版本，可以使用 CQL COPY 命令将数据导入到表（或从表中导出）。根据文档，如果您导入的行数大致少于 200 万行，那么这是一个不错的选择。它比 sstableloader 更容易使用，并且更不容易出错。 sstableloader 要求您创建严格格式的 .db 文件，而 CQL COPY 命令接受带分隔符的文本文件。文档在这里：
http://www.datastax.com/docs/1.1/references/cql/COPY
对于较大的数据集，您应该使用 sstableloader。http://www.datastax.com/docs/1.1/references/bulkloader。这里描述了一个工作示例 http://www.datastax.com/dev/blog/bulk -loading。