apache-beam

投稿关注

文章 0 浏览 1

apache beam / dataflow gosdk管道不会处理任何pubsub消息

我希望每个人的星期五进展顺利。我拼命寻求Apache Beam Go SDK的帮助（ https：//github.com /apache/beam/tree/master/sdks ）。我已经写了一条使用…

哆啦不做梦 2025-02-13 23:58:19 1 0

如何将objectId从bson封装导入到Apache Beam管道中（与Pymongo兼容）？

嗨，我正在使用Google DataFlow中的管道，该管道加载了一些MongoDB文档（带有Pymongo）并进行处理。在某个时候，我需要将ID投入到mongoDB objectid。 …

信仰 2025-02-13 23:35:22 1 0

Apache Beam Fileio写下压缩文件

我想知道是否可以使用Apache Beam Python SDK的Fileio模块编写压缩文件。目前，我使用模块将文件写入GCP存储桶： _ = (logs | 'Window' >> beam.Windo…

纵情客 2025-02-13 21:54:47 1 0

Apache Beam Python SDK用于SQL窗口

问题是，我想在 SELECT f_timestamp, line, COUNT(*) FROM PCOLLECTION GROUP BY line, HOP(f_timestamp, INTERVAL '30' MINUTE, INTERVAL '1' HOUR) …

终止放荡 2025-02-13 20:09:52 1 0

Apache Beam管道写入多个水槽

我有一个需要进行以下操作的方案：从GCS中存储的文件中读取数据，将多个转换应用于数据。坚持Google大查询中的PCollection。步骤3。成功时，将PCo…

变身佩奇 2025-02-13 10:19:03 0 0

如何在管道结束时运行一些代码

我需要在DataFlow作业管道末尾更新两个表（基于管道结果）。我已经将逻辑更新到最终块中的表。最终，块是与管道并行执行的，我可以在管道结束时运…

樱桃奶球 2025-02-13 07:58:47 0 0

Apache Beam WriteTokafka（Python SDK）dom do to to to to to to topector（没有错误的清单）

我正在尝试使用Writetokafka类Apache Beam（Python SDK）写入Kafka主题的流。但是，它无休止地运行脚本（没有错误），并且不会将流写入主题。我必须取…

∞梦里开花 2025-02-13 07:08:13 1 0

TFX导致TypeCheckerror：输出类型提示违反[train]：Expector＆lt; class＆lt; apache_beam.pvalue.pvalue.pdone.pdone＆＃x27;＆＃x27;

我尝试运行TFX文档中提供的教程，并且在通往元数据的路径方面面临问题。我已经在本期中详细描述了查询 https://github.com/github.com/tensorflow/te…

烙印 2025-02-13 04:51:43 2 0

Google DataFlow连续8个期间与JVM失败，用于全球合并

在我的管道中，我有大约400万个记录，流量如下阅读BigQuery 的所有记录阅读BigQuery 转换为Proto 全球组合并创建基于KV的SST文件，后来用于RockSDB …

娇女薄笑 2025-02-13 03:21:35 1 0

Python Apache Beam WriteTotext设置最大大小的部分文件

我正在使用WritEtotext进行Google Cloud Storage。文件以这种格式生成，例如：1656288022-00009 of-00017.json.gz，将有17个部分文件。我写的代码要…

一人独醉 2025-02-12 08:56:37 0 0

如何在Apache Beam中适当地为API呼叫创建会话

我正在为我的PCollection中的每个元素进行基本的API调用。在最初的实施中，我无需使用会话就打了电话，我的工作将大约9分钟30秒的时间用于1200行。总…

肩上的翅膀 2025-02-12 07:11:44 1 0

使用Apache Beam Google DataFlow和Java将带有未知JSON属性的大型JSONL文件转换为CSV

如何使用Apache Beam，Google DataFlow和Java将带有未知JSON属性的大型JSONL文件转换为CSV，这是我的场景： Google Storage JSON属性中的一个大JSONL…

尴尬癌患者 2025-02-10 16:44:55 1 0

Apache Beam Pipeline：OutOfMemoryException在用Google DataFlow编写AVRO文件为Google Cloud存储时

我们在Apache Beam Java SDK 2.34.0中开发了一个批处理管道，并使用Google Cloud DataFlow Runner运行。我们有一个步骤来编写AVRO文件。 Avro Write引…

扛起拖把扫天下 2025-02-10 11:50:57 3 0

TensorFlow在AWS上扩展分布式培训

我是TensorFlow扩展的新手，我知道TFX使用Apache Beam与Spark，DataFlow等跑步者连接到GCP。我的问题是，我可以使用TFX在AWS上分发培训吗？ TFX使用的…

零時差 2025-02-10 04:28:55 2 0

使用DataFlow的pubsub到云存储很慢

我正在使用以下示例 snippet向GCS写下PubSub消息： class WriteToGCS(beam.DoFn): def __init__(self, output_path, prefix): self.output_path = out…

女中豪杰 2025-02-09 22:44:58 2 0

共 10 页
1
2
3
4
5
下一页

友情链接

文江博客