第 5 页 - apache-beam

apache-beam

文章 0 浏览 1

如何从Apache Beam Python读取S3文件？

我正在使用Apache Beam Python SDK读取S3文件数据。我正在使用的代码 ip = (pipe | beam.io.ReadFromText("s3://bucket_name/file_path") | beam.Map…

情绪少女 2025-01-26 11:30:56 2 0

如何使用Apache Beam / Google DataFlow Python拆分大型镶木木材文件

我需要使用Apache Beam / Google DataFlow拆分30GB Parquet文件。这是代码： with beam.Pipeline(options=pipeline_options) as p: ( p | 'Read' >> …

梦境 2025-01-26 08:10:48 5 0

如何使用Apache Beam Java将镶木quet文件写入AWS S3？

我正在尝试转换JSON - ＆GT;通用记录 - ＆gt; PARQUET-到 - ＆GT; S3。我能够将其转换为Parquet，但我不知道如何将Parquet文件直接放置在S3的情况下，…

围归者 2025-01-26 02:11:07 2 0

如何更新数据流的SDK版本

我使用模板（dataStream to BigQuery）创建了数据流作业。一切都很好，但是当我打开DataFlow作业页面时，在横向作业信息窗格中，我想起了：建议使用…

月牙弯弯 2025-01-26 01:36:25 4 0

可以将Apache Beam管道用于批量编排吗？

我是Apache Beam环境中的新手。试图适合Apache Beam管道进行批处理编排。我对批处理的定义如下如下 ==＆gt;一组工作， job ==＆gt;可以有一个或多个…

失退 2025-01-25 13:46:11 5 0

DataProc上的流式弗林克作业引发了工人的GRPC错误

我的流flink Job（来自Pub/sub Source）从工人中投掷多个错误消息： Traceback (most recent call last): File "test.py", line 175, in run( File "t…

秋风の叶未落 2025-01-25 12:55:28 6 0

Beam to BigQuery默默地未能创建BigQuery桌子

我正在构建从PubSub到Beam（直接/DataFlow Runner）再到大查询的数据管道。今天，我们开始遇到问题，即Beam IO BigQuery连接器停止自动创建表，并且没…

无边思念无边月 2025-01-25 02:52:23 5 0

触发云存储 - 数据流

我现在从现在开始，需要一些帮助，我有一个自定义模型，我使用apache beam创建的管道创建了一条管道，该管道从存储桶中的文件夹中获取CSV文件，然后将…

感性 2025-01-25 00:50:53 7 0

如何一次将不同的窗口应用于一个pcollection？

因此，我的用户酶是，我的pcollection中的元素应放入不同长度的窗口（在 row 本身中指定），但是以下操作（例如 groupby ）同样，所以我不想在这一点…

迷路的信 2025-01-25 00:47:24 4 0

为什么Apache Beam的火花跑步者给出错误错误：无法加载ORG/APACHE/BEAM/SDK/SDK/options/PipelineOptions？

我尝试使用命令使用Spark-Runner运行一个工作的Apache Beam代码， spark-submit --class org.apache.beam.examples.WordCount --master spark://local…

娜些时光，永不杰束 2025-01-24 20:23:04 3 0

如何使用Java将JSON转换为Apache Beam中的镶木

我正在尝试转换JSON数据 {"col1":"sample-val-1", "col2":1.0} {"col1":"sample-val-2", "col2":2.0} {"col1":"sample-val-3", "col2":3.0} {"col1":"…

像你 2025-01-24 19:31:00 5 0

在输出文件名中添加时间戳

我们有一个很长的管道，我们希望将时间戳添加到文件名中，以尽可能接近管道结束。我们提出的解决方案是使用 filenamepolicy ，它似乎可以正常工作，…

傻比既视感 2025-01-24 11:15:23 5 0

Apache Beam：如何使用更新的数据覆盖源镶木文件

我有一个用python编写的梁管道，该管道读取两个木板文件： state 和更新。管道将当前数据保存在状态文件中，读取更新文件，它将更新 state> State fil…

黑凤梨 2025-01-24 06:11:48 5 0

动态查询to apache_beam.io.gcp.bigquery.readfrombigquery

我需要在Apache Beam管道中运行动态查询。该查询应根据消息中的值在运行时进行评估。 IE 从mytable中选择 *，其中mycolumn =＆lt;＆lt;动态值＆gt; 我…

诠释孤独 2025-01-23 23:33:25 5 0

是否为无界的PCollection定义窗口

Beam/Flink的新手，很高兴在此问题上提供帮助。我有一个管道，可以从kafka avro消息中读取一些对象转换，然后再次写信给kafka。没有定义任何窗口，因…

温暖的光 2025-01-23 19:30:40 3 0

共 10 页
上一页
3
4
5
6
7
下一页

友情链接

文江博客