当前位置：文江博客话题详情

从数据库导出数据并写入HDFS(hadoop fs)

发布于 2024-11-14 13:29:06 字数 152 浏览 1 评论 0原文

现在我正在尝试从数据库表中导出数据，并将其写入hdfs。

问题是：名称节点会成为瓶颈吗？机制是怎样的，名称节点会缓存一个切片（64MB），然后将其交给数据节点？

除了写hdfs还有什么更好的方法吗？因为我认为它没有利用并行性的优势。

谢谢：）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

不羁少年 2024-11-21 13:29:07

您是否考虑过使用 Sqoop。 Sqoop可用于从任何支持JDBC的数据库中提取数据并将其放入HDFS中。

http://www.cloudera.com/blog/2009/06/introducing- sqoop/

Sqoop import 命令获取要运行的映射作业的数量（默认为 1）。此外，在并行化工作（映射任务 > 1）时，可以指定拆分列，否则 Sqoop 将根据表的序列键进行猜测。每个映射文件都会在目录中为结果创建一个单独的文件。除非创建的文件数量很大（神经网络将有关文件的元数据保存在内存中），否则神经网络不会成为瓶颈。

Sqoop 还可以解释源数据库（Oracle、MySQL 或其他）并使用数据库特定工具（如 mysqldump 和 import）而不是 JDBC 通道以获得更好的性能。

回复收藏 0 原文

~没有更多了~