使用 Oozie for Hadoop 的最佳实践
我已经使用 Hadoop 有一段时间了。一段时间后,我意识到我需要链接 Hadoop 作业,并拥有某种类型的工作流程。我决定使用 Oozie ,但找不到太多有关最佳实践的信息。我想听听更有经验的人的意见。
此致
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
学习 oozie 的最佳方法是下载发行版附带的示例 tar 文件并运行每个文件。它有一个 mapreduce、pig、流工作流程的示例以及示例协调器 xml。
首先运行正常的工作流程,一旦调试完毕,就可以使用协调器运行工作流程,以便您可以逐步进行。最后,一种最佳实践是使工作流和协调器中的大部分变量可配置并通过 component.properties 文件提供,这样您就不必经常接触 xml。
http://yahoo.github.com/oozie/releases/3.1.0 /DG_Examples.html
The best way to learn oozie is to download the examples tar file that comes with the distribution and run each of them. It has an example for mapreduce, pig , streaming workflow as well as sample coordinator xmls.
First run the normal workflows and once you debug that , move to running the workflows with coordinator so that you can take it step by step. Lastly one best practice would be to make most of your variables in workflow and coordinator be to configurable and supplied through a component.properties file so that you don't have touch the xml often.
http://yahoo.github.com/oozie/releases/3.1.0/DG_Examples.html
github和apache上都有关于Oozie的文档。
https://github.com/yahoo/oozie/wiki
http://yahoo.github.com/oozie/releases/3.1.0/DG_Examples.html
http://incubator.apache.org/oozie/index.html
Apache 文档正在更新,应该很快就会上线。
There are documents about Oozie on github and apache.
https://github.com/yahoo/oozie/wiki
http://yahoo.github.com/oozie/releases/3.1.0/DG_Examples.html
http://incubator.apache.org/oozie/index.html
Apache document is being updated and should be live soon.