apache-beam

apache-beam

文章 0 浏览 1

apache beam / dataflow gosdk管道不会处理任何pubsub消息

我希望每个人的星期五进展顺利。我拼命寻求Apache Beam Go SDK的帮助( https://github.com /apache/beam/tree/master/sdks )。我已经写了一条使用…

哆啦不做梦 2025-02-13 23:58:19 1 0

如何将objectId从bson封装导入到Apache Beam管道中(与Pymongo兼容)?

嗨,我正在使用Google DataFlow中的管道,该管道加载了一些MongoDB文档(带有Pymongo)并进行处理。在某个时候,我需要将ID投入到mongoDB objectid。 …

信仰 2025-02-13 23:35:22 1 0

Apache Beam Fileio写下压缩文件

我想知道是否可以使用Apache Beam Python SDK的Fileio模块编写压缩文件。目前,我使用模块将文件写入GCP存储桶: _ = (logs | 'Window' >> beam.Windo…

纵情客 2025-02-13 21:54:47 1 0

Apache Beam Python SDK用于SQL窗口

问题是,我想在 SELECT f_timestamp, line, COUNT(*) FROM PCOLLECTION GROUP BY line, HOP(f_timestamp, INTERVAL '30' MINUTE, INTERVAL '1' HOUR) …

终止放荡 2025-02-13 20:09:52 1 0

Apache Beam管道写入多个水槽

我有一个需要进行以下操作的方案: 从GCS中存储的文件中读取数据, 将多个转换应用于数据。 坚持Google大查询中的PCollection。 步骤3。成功时,将PCo…

变身佩奇 2025-02-13 10:19:03 0 0

如何在管道结束时运行一些代码

我需要在DataFlow作业管道末尾更新两个表(基于管道结果)。 我已经将逻辑更新到最终块中的表。 最终,块是与管道并行执行的, 我可以在管道结束时运…

樱桃奶球 2025-02-13 07:58:47 0 0

Apache Beam WriteTokafka(Python SDK)dom do to to to to to to topector(没有错误的清单)

我正在尝试使用Writetokafka类Apache Beam(Python SDK)写入Kafka主题的流。但是,它无休止地运行脚本(没有错误),并且不会将流写入主题。我必须取…

∞梦里开花 2025-02-13 07:08:13 1 0

TFX导致TypeCheckerror:输出类型提示违反[train]:Expector< class< apache_beam.pvalue.pvalue.pdone.pdone''

我尝试运行TFX文档中提供的教程,并且在通往元数据的路径方面面临问题。 我已经在本期中详细描述了查询 https://github.com/github.com/tensorflow/te…

烙印 2025-02-13 04:51:43 2 0

Google DataFlow连续8个期间与JVM失败,用于全球合并

在我的管道中,我有大约400万个记录,流量如下 阅读BigQuery 的所有记录 阅读BigQuery 转换为Proto 全球组合并创建基于KV的SST文件,后来用于RockSDB …

娇女薄笑 2025-02-13 03:21:35 1 0

Python Apache Beam WriteTotext设置最大大小的部分文件

我正在使用WritEtotext进行Google Cloud Storage。文件以这种格式生成,例如:1656288022-00009 of-00017.json.gz,将有17个部分文件。 我写的代码要…

一人独醉 2025-02-12 08:56:37 0 0

如何在Apache Beam中适当地为API呼叫创建会话

我正在为我的PCollection中的每个元素进行基本的API调用。在最初的实施中,我无需使用会话就打了电话,我的工作将大约9分钟30秒的时间用于1200行。总…

肩上的翅膀 2025-02-12 07:11:44 1 0

使用Apache Beam Google DataFlow和Java将带有未知JSON属性的大型JSONL文件转换为CSV

如何使用Apache Beam,Google DataFlow和Java将带有未知JSON属性的大型JSONL文件转换为CSV, 这是我的场景: Google Storage JSON属性中的一个大JSONL…

尴尬癌患者 2025-02-10 16:44:55 1 0

Apache Beam Pipeline:OutOfMemoryException在用Google DataFlow编写AVRO文件为Google Cloud存储时

我们在Apache Beam Java SDK 2.34.0中开发了一个批处理管道,并使用Google Cloud DataFlow Runner运行。我们有一个步骤来编写AVRO文件。 Avro Write引…

扛起拖把扫天下 2025-02-10 11:50:57 3 0

TensorFlow在AWS上扩展分布式培训

我是TensorFlow扩展的新手,我知道TFX使用Apache Beam与Spark,DataFlow等跑步者连接到GCP。我的问题是,我可以使用TFX在AWS上分发培训吗? TFX使用的…

零時差 2025-02-10 04:28:55 2 0

使用DataFlow的pubsub到云存储很慢

我正在使用以下示例 snippet向GCS写下PubSub消息: class WriteToGCS(beam.DoFn): def __init__(self, output_path, prefix): self.output_path = out…

女中豪杰 2025-02-09 22:44:58 2 0
更多

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文