google-cloud-dataflow

google-cloud-dataflow

文章 0 浏览 1

在Google DataFlow作业上安装Chromedriver

我想将刮擦的容器化Python应用程序迁移到可以在数据流上运行的Apache Beam Pipeline。我的刮擦应用程序使用2种刮擦方法:卷曲响应和硒铬。 在本地运行…

累赘 2025-02-02 22:24:35 3 0

Apache Beam批处理应用程序 - 计时器回调未执行

我目前正在使用Java API构建横梁批处理处理应用程序。 我的源数据集有界限,并且可能包含时间戳也可能不包含时间戳。 我的应用程序基本上是从bigquery…

淡笑忘祈一世凡恋 2025-02-01 20:24:07 4 0

在Apache Beam中Fileio之后,如何手动提交Kafka偏移?

我有一个 fileio 编写 pcollection< genericRecord> 到文件和返回 writefilesresult< destinatyt> 。 我想创建一个 dofn 在编写文件…

洋洋洒洒 2025-02-01 12:20:17 4 0

GCP批处理数据管道

我正在研究GCP数据管道。我正在使用数据流,数据proc,而目标是很大的查询。我在AWS中创建了多个数据管道,这是我第一次在GCP中。 在AWS中,我将DEEQ…

往事随风而去 2025-01-31 11:14:57 4 0

如何使用Java中的Apache Beam Direct-Runner写入Boogtable?

我一直在试图让Apache Beam Direct Runner写入Boogtable,但似乎有问题。 当我运行 gradle运行时,终端上没有故障或确认错误。 我的管道如下: pub/su…

森罗 2025-01-30 11:26:10 5 0

如何将hbase-site.xml传递到Google云数据流模板

我们有一个设置,其中我们在Google Cloud上运行HBase群集,并使用要写入HBase表中的数据流。为此,我想将我的 hbase-site.xml 在登台中传递,然后在产…

梦中的蝴蝶 2025-01-29 01:07:18 5 0

从Google Cloud DataFlow中输出将KV PCollection分类为SST文件

我正在尝试创建一个在这里 。 是否可以写入数据流中的订单的不同文件格式?…

救星 2025-01-28 21:20:39 3 0

将RDBMS数据摄取到BigQuery

如果我们有SQL-Server和Oracle等本地资源。必须在大查询中定期以批处理模式摄入数据。建筑是什么?可以使用哪种GCP本机服务?可以使用数据流或数据流…

毁梦 2025-01-28 16:25:54 4 0

Hive表在GCS存储桶中的DataProc群集商店中

我的Hive表位于GCS存储桶中的DataProc群集存储中,我想在使用DataFlow执行某些转换后将数据存储到另一个GCS存储桶中。 因此,需要有关如何进行的帮助…

并安 2025-01-28 10:39:32 3 0

Google Pubsub至BigQuery不写JSON

啊, 我正在尝试使用标准 pubsub到BigQuery 模板将数据从Pub/Sub发送到BigQuery。我已经发布了一些有关该主题的消息,但是如果我有一个嵌套的JSON,则…

软的没边 2025-01-28 04:39:34 2 0

GCP DataFlow vs CloudFunctions的小尺寸和频繁的更新较少

如果我有一个CSV,它将在SQL数据库中更新条目。文件大小为最大50 KB,更新频率每周两次。另外,如果我需要进行一些自动理智测试, 我应该使用数据流或…

久隐师 2025-01-28 03:14:04 4 0

无法创建模板

我正在尝试使用以下MVN命令创建一个数据流模板,并且在存储桶中有一个JSON配置文件,我需要在其中读取每次运行的其他配置文件(我不想使用硬代码值`)…

一向肩并 2025-01-27 18:43:59 3 0

Apache光束在无限侧输入上被阻塞

我的问题与另一篇文章非常相似: apache beam beam cloud dataflow dataflow dataflow datafling stuck side input 。 但是,我尝试了那里的分辨率(…

谁对谁错谁最难过 2025-01-27 00:03:34 5 0

当收集大小为0时,我们如何防止在数据流管线中写入空文件?

我有一个数据流管线,如果有任何不正确的记录,我正在解析文件,然后我在GCS存储桶上写下它,但是当输入文件中没有错误时,数据仍然在GCS桶上写入空文…

心在旅行 2025-01-26 12:27:29 4 0

如何使用Apache Beam / Google DataFlow Python拆分大型镶木木材文件

我需要使用Apache Beam / Google DataFlow拆分30GB Parquet文件。 这是代码: with beam.Pipeline(options=pipeline_options) as p: ( p | 'Read' >> …

梦境 2025-01-26 08:10:48 4 0
更多

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文