google-cloud-dataflow

google-cloud-dataflow

文章 0 浏览 1

数据流流管线错误:" get_message_id'不是定义的。它可以与DirectRunner一起在本地工作,但在DataFlow上不使用

在数据流中运行流媒体管道时,我有一个奇怪的错误。 我已经通过DirectRunner在本地测试了管道,并且它可以正常工作,但是当我在DataFlow上运行它时,…

如何视而不见 2025-02-07 09:21:57 5 0

是否可以将不是密钥的列分组,并将汇总结果附加到Apache Flink/Beam中的原始记录

假设我的数据如下… Col1 Col2 Col3 Col4 A ABC 101 1 B ABC 102 1 C ABCD 101 1 D ABCD 101 1 E ABC 101 1 我想要Groupby col2 col2 col3 and sum(…

染柒℉ 2025-02-07 05:58:15 4 0

有没有办法强制数据流工作长时间运行后停止

是否有一种方法可以强迫数据流工作,如果运行时间比XXX小时更长? 亲切的问候 马可…

农村范ル 2025-02-07 03:18:16 4 0

GCP卡在GCP上的示例

我遵循了 httpps://cloud.google.com/dataaflow /doc/quickstarts/create-pipeline-go 对于python和go,但是当我将作业部署到dataflow时,该作业的进…

绳情 2025-02-06 14:02:47 3 0

ValueError:试图编码为“不可删除”字段的null&quot'last_review''

我试图将CSV读为梁数据框架,并将其转换为PCollection。 管道代码: with beam.Pipeline(options=pipeline_options) as p: df = p | read_csv(input_f…

孤独难免 2025-02-05 21:11:01 2 0

如何使用Python中的Apache Beam对BigQuery表分区?

我正在将连接的输出旋转到大Query桌子上。 表有一个日期列。 我想按日期分区。 但是,我认为没有选择在我们要分区的WHIVH上提供字段。 我尝试了以下代…

つ低調成傷 2025-02-05 18:46:40 4 0

如何获取DataPrep作业的数据流模板?

我工作的客户端将在10月份贬低DataPrep,我们目前使用Google Cloud Platform进行所有操作。 DataPrep是一个“漂亮”层,目前在DataFlow下运行, 其中…

梦在深巷 2025-02-05 14:33:02 4 0

为Avroio作家添加标题和页脚

我们有一个要求将标题和页脚添加到输出AVRO文件中,但SDK似乎不支持它。对于Textio Writer,似乎具有该功能 withHeader 和。 也就是说,在不创建单独…

哭了丶谁疼 2025-02-05 14:29:49 4 0

如果没有数据,Apache Beam不会创建BigQuery表

我的梁管道定义为: PCollectionList.of(mycollection1).and(mycollection2) .apply(new MyTransform()) .apply(BigQueryIO.write() .to("my_result_t…

满身野味 2025-02-05 02:52:08 5 0

读取数据时错误,错误消息:JSON表遇到了太多错误,放弃了。行

我有两个文件,并使用apache-beam中的cogroupbykey进行内部加入。 当我将行写入BigQuery时,IY给我以下错误。 RuntimeError: BigQuery job beam_bq_jo…

笑咖 2025-02-04 07:42:55 5 0

如何由于Apache Beam Java SDK中的错误而找到被拒绝的文件

我有要处理的相同类型文件的 n 我将提供通配符输入模式( c:\\ users \\*\\*\\*)。 因此,现在我如何找到文件名和记录,这些文件名和记录已被拒绝在…

皇甫轩 2025-02-04 07:31:53 7 0

如何从另一个通用类调用Apache Beam DOFN类,反之亦然?

我如何将pardo类(在beam.py中)继承到通用类(in nim in nigenic.py文件),反之亦然? 示例:beam.py class rejected_records(beam.DoFn): def proc…

一向肩并 2025-02-04 03:37:27 7 0

数据流//高系统滞后和缓慢的水印

我正在测试数据管道,该数据管道是流媒体管道之间的混合物,并指向GCS数据文件的消息。该系统的目的是允许酒吧子消息决定重复数据删除,组和文件格式…

离线来电— 2025-02-03 20:14:15 6 0

在Apache Beam Python中读取CSV的有效方法

在阅读了有关Stackoverflow的一些问题之后,我一直在使用以下代码来读取Beam上的CSV文件。 管道代码: with beam.Pipeline(options=pipeline_options)…

痴情换悲伤 2025-02-03 19:45:05 7 0

如何避免使用Python ApacheBeam进行数据流时避免使用?

因此,我在Python中使用Apache Beam和Google Cloud从Cloud Storage中获取数据,删除一些列,然后将其移至BigQuery中,直到最后位。 使用 writeTobigqu…

雪若未夕 2025-02-03 17:14:25 6 0
更多

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文