分布式ETL问题

发布于 2024-08-26 09:35:03 字数 364 浏览 4 评论 0原文

寻找适用于 200 多个分布式系统(Windows、AS400、Linux 等)的 ETL 系统的任何建议。

我们每月从所有客户(无论系统类型如何)收集数据,将其带回,一起处理并将聚合解决方案发送回给他们。我的任务是使这个系统自动化——任何关于如何稳健地做到这一点的建议,我真的不想重新发明轮子。我不拥有任何要从中提取数据的系统,这使这项任务变得更加困难,但可以安装客户端。

我已经用 Java 创建了一个原型客户端/服务器架构,并使用 FTP 进行传输,但我觉得它很脆弱。我应该注意到,不同系统的所有提取/转换代码都已经存在于 Java 中(尽管是遗留的)。

我应该提到,我们目前每月提取一次数据,但正在努力每周提取一次数据。

任何见解都值得赞赏。

Looking for any recommendations for an ETL system for 200+ distributed systems (Windows, AS400, Linux etc).

We collect data each month from all of our customers (regardless of system type), bring it back, process it all together and send the aggregate solutions back to them. I'm tasked with automating this system - any suggestions on how to do this robustly, I really don't want to re-invent the wheel. I don't own any of the systems I'm pulling data from, which has made this task more difficult but can install a client.

I've created a prototype client/server architecture in Java with FTP for transport but it feels brittle to me. I should note that all of the extract/transformation code for the different systems already exists in Java (albeit legacy).

I should mention we pull data once per month currently, but working towards weekly.

Any insight is appreciated.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

堇年纸鸢 2024-09-02 09:35:03

我认为这将取决于该项目将如何发展。如果这个项目会增加更多的要求并且涉及一些资金,那么 ETL 工具可能是个好主意。

但是,如果您现在有固定的输出(报告)并且不打算将其转移到任何地方,那么自定义 ETL 可能是值得的。原因是大多数 ETL 工具都有各种输出格式(图表、文本文件等)并且使用工具很方便,但最重要的是数据移动部分几乎对所有工具来说都是通用的。即使使用任何其他 ETL 工具,您也需要实现与现在相同的查询,而且还需要学习该工具。谁知道?某些工具可能涉及 200 多个站点的安装。

最近,我们公司花了很多钱购买了报表工具和报表工具。服务器和人力资源来构建良好的 ETL,因为我们内部的 ETL 因速度慢且外观不专业而受到批评(你知道它没有使用流行的 ETL 工具。它是一堆脚本命令)。随着所有资金的投入,该项目几乎面临着死胡同。

还有一件事。我不明白Java & FTP 参与了这个过程。
您可以使用SQL直接连接客户系统中的DB吗?
如果可以的话,使用 SQL &存储过程总是比使用 JAVA 和 Java 更好。 FTP。

希望它会有所帮助。

I think it would depend on how the project will become. If this porject will be adding more requirement and there is some money involved, the ETL tool might be good idea.

However, if you have fixed output(the report) now and it is not intended to go anywhere, the custom ETL might be worth it. The reason is the most ETL tools have various output format(Chart, text file etc) and convinience to use the tool but the bottom line is Data moving part is almost universal for all the tools. Even with any other ETL tool, you need to implement same query you are doing now, plus you need to learn the tool. Who knows? Some tool might involved in 200+ site installation.

Recently, our company spent a lot of money to buy report tools & servers & human resource to build good ETL since our in-house ETL has been critisized for the slowness and not professional looking(You know it is not using popular ETL tools. It is bunch of script command). With all the money spending, the project faced on almost dead end.

One more thing. I don't understand how Java & FTP is involved in this process.
Can you directly connect the DB in your customer system using SQL?
If you could, using SQL & stored procedure is always better idea than using JAVA & FTP.

Hope it would help.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文