在Google DataFlow作业上安装Chromedriver
我想将刮擦的容器化Python应用程序迁移到可以在数据流上运行的Apache Beam Pipeline。我的刮擦应用程序使用2种刮擦方法:卷曲响应和硒铬。 在本地运行…
Apache Beam批处理应用程序 - 计时器回调未执行
我目前正在使用Java API构建横梁批处理处理应用程序。 我的源数据集有界限,并且可能包含时间戳也可能不包含时间戳。 我的应用程序基本上是从bigquery…
在Apache Beam中Fileio之后,如何手动提交Kafka偏移?
我有一个 fileio 编写 pcollection< genericRecord> 到文件和返回 writefilesresult< destinatyt> 。 我想创建一个 dofn 在编写文件…
如何使用Java中的Apache Beam Direct-Runner写入Boogtable?
我一直在试图让Apache Beam Direct Runner写入Boogtable,但似乎有问题。 当我运行 gradle运行时,终端上没有故障或确认错误。 我的管道如下: pub/su…
如何将hbase-site.xml传递到Google云数据流模板
我们有一个设置,其中我们在Google Cloud上运行HBase群集,并使用要写入HBase表中的数据流。为此,我想将我的 hbase-site.xml 在登台中传递,然后在产…
Hive表在GCS存储桶中的DataProc群集商店中
我的Hive表位于GCS存储桶中的DataProc群集存储中,我想在使用DataFlow执行某些转换后将数据存储到另一个GCS存储桶中。 因此,需要有关如何进行的帮助…
Google Pubsub至BigQuery不写JSON
啊, 我正在尝试使用标准 pubsub到BigQuery 模板将数据从Pub/Sub发送到BigQuery。我已经发布了一些有关该主题的消息,但是如果我有一个嵌套的JSON,则…
GCP DataFlow vs CloudFunctions的小尺寸和频繁的更新较少
如果我有一个CSV,它将在SQL数据库中更新条目。文件大小为最大50 KB,更新频率每周两次。另外,如果我需要进行一些自动理智测试, 我应该使用数据流或…
Apache光束在无限侧输入上被阻塞
我的问题与另一篇文章非常相似: apache beam beam cloud dataflow dataflow dataflow datafling stuck side input 。 但是,我尝试了那里的分辨率(…
当收集大小为0时,我们如何防止在数据流管线中写入空文件?
我有一个数据流管线,如果有任何不正确的记录,我正在解析文件,然后我在GCS存储桶上写下它,但是当输入文件中没有错误时,数据仍然在GCS桶上写入空文…
如何使用Apache Beam / Google DataFlow Python拆分大型镶木木材文件
我需要使用Apache Beam / Google DataFlow拆分30GB Parquet文件。 这是代码: with beam.Pipeline(options=pipeline_options) as p: ( p | 'Read' >> …