apache-beam

apache-beam

文章 0 浏览 1

如何从Apache Beam Python读取S3文件?

我正在使用Apache Beam Python SDK读取S3文件数据。 我正在使用的代码 ip = (pipe | beam.io.ReadFromText("s3://bucket_name/file_path") | beam.Map…

情绪少女 2025-01-26 11:30:56 2 0

如何使用Apache Beam / Google DataFlow Python拆分大型镶木木材文件

我需要使用Apache Beam / Google DataFlow拆分30GB Parquet文件。 这是代码: with beam.Pipeline(options=pipeline_options) as p: ( p | 'Read' >> …

梦境 2025-01-26 08:10:48 5 0

如何使用Apache Beam Java将镶木quet文件写入AWS S3?

我正在尝试转换JSON - >通用记录 - > PARQUET-到 - > S3。我能够将其转换为Parquet,但我不知道如何将Parquet文件直接放置在S3的情况下,…

围归者 2025-01-26 02:11:07 2 0

如何更新数据流的SDK版本

我使用模板(dataStream to BigQuery)创建了数据流作业。 一切都很好,但是当我打开DataFlow作业页面时,在横向作业信息窗格中,我想起了: 建议使用…

月牙弯弯 2025-01-26 01:36:25 4 0

可以将Apache Beam管道用于批量编排吗?

我是Apache Beam环境中的新手。 试图适合Apache Beam管道进行批处理编排。 我对批处理的定义如下如下 ==>一组工作, job ==>可以有一个或多个…

失退 2025-01-25 13:46:11 5 0

DataProc上的流式弗林克作业引发了工人的GRPC错误

我的流flink Job(来自Pub/sub Source)从工人中投掷多个错误消息: Traceback (most recent call last): File "test.py", line 175, in run( File "t…

秋风の叶未落 2025-01-25 12:55:28 6 0

Beam to BigQuery默默地未能创建BigQuery桌子

我正在构建从PubSub到Beam(直接/DataFlow Runner)再到大查询的数据管道。今天,我们开始遇到问题,即Beam IO BigQuery连接器停止自动创建表,并且没…

无边思念无边月 2025-01-25 02:52:23 5 0

触发云存储 - 数据流

我现在从现在开始,需要一些帮助,我有一个自定义模型,我使用apache beam创建的管道创建了一条管道,该管道从存储桶中的文件夹中获取CSV文件,然后将…

感性 2025-01-25 00:50:53 7 0

如何一次将不同的窗口应用于一个pcollection?

因此,我的用户酶是,我的pcollection中的元素应放入不同长度的窗口(在 row 本身中指定),但是以下操作(例如 groupby )同样,所以我不想在这一点…

迷路的信 2025-01-25 00:47:24 4 0

为什么Apache Beam的火花跑步者给出错误错误:无法加载ORG/APACHE/BEAM/SDK/SDK/options/PipelineOptions?

我尝试使用命令使用Spark-Runner运行一个工作的Apache Beam代码, spark-submit --class org.apache.beam.examples.WordCount --master spark://local…

娜些时光,永不杰束 2025-01-24 20:23:04 3 0

如何使用Java将JSON转换为Apache Beam中的镶木

我正在尝试转换JSON数据 {"col1":"sample-val-1", "col2":1.0} {"col1":"sample-val-2", "col2":2.0} {"col1":"sample-val-3", "col2":3.0} {"col1":"…

像你 2025-01-24 19:31:00 5 0

在输出文件名中添加时间戳

我们有一个很长的管道,我们希望将时间戳添加到文件名中,以尽可能接近管道结束。 我们提出的解决方案是使用 filenamepolicy ,它似乎可以正常工作,…

傻比既视感 2025-01-24 11:15:23 5 0

Apache Beam:如何使用更新的数据覆盖源镶木文件

我有一个用python编写的梁管道,该管道读取两个木板文件: state 和更新。管道将当前数据保存在状态文件中,读取更新文件,它将更新 state> State fil…

黑凤梨 2025-01-24 06:11:48 5 0

动态查询to apache_beam.io.gcp.bigquery.readfrombigquery

我需要在Apache Beam管道中运行动态查询。该查询应根据消息中的值在运行时进行评估。 IE 从mytable中选择 *,其中mycolumn =<<动态值> 我…

诠释孤独 2025-01-23 23:33:25 5 0

是否为无界的PCollection定义窗口

Beam/Flink的新手,很高兴在此问题上提供帮助。 我有一个管道,可以从kafka avro消息中读取一些对象转换,然后再次写信给kafka。没有定义任何窗口,因…

温暖的光 2025-01-23 19:30:40 3 0
更多

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文