在Google DataFlow作业上安装Chromedriver

发布于 2025-02-02 22:24:35 字数 464 浏览 3 评论 0原文

我想将刮擦的容器化Python应用程序迁移到可以在数据流上运行的Apache Beam Pipeline。我的刮擦应用程序使用2种刮擦方法：卷曲响应和硒铬。

在本地运行应用程序时，一切都可以正常运行，因为刮擦成功地使用了这两种方法运行，因为我在本地计算机上安装了Chromedriver。

现在的问题是在数据流程上。我知道Google DataFlow是无服务器的。我只是想知道是否有一种方法可以在运行管道时在数据流工作人员中安装Chromedriver？

当我在没有驱动程序的情况下部署管道时，错误看起来像这样： selenium.common.exceptions.webdriverexception：消息：“ Chromedriver”可执行文件需要在路径中。请参阅https://chromedriver.chromium.org/home [在运行'pardo（scrapeContent）-ptransform-47']>

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

野生奥特曼 2025-02-09 22:24:35

解决方案是使用 dataflow

您配置了安装apache-beam [GCP]和Chromedriver的Docker容器，以及

您在构建图像之后的所有要求：gcloud build builds提交。 -tag gcr.io/$ project/qurepo：$ tag

以及要将作业提交到数据流时：

 python main.py 
--project=project 
--region=region
--temp_location=location 
--runner=DataflowRunner 
--experiments=use_runner_v2 
--sdk_container_image=image_path

The solution for this is to use custom containers in Dataflow

You configure a docker container where you install apache-beam[GCP] and chromedriver and all your requirements

After that you build your image: gcloud builds submit . --tag gcr.io/$PROJECT/$REPO:$TAG

And when you want to submit your job to dataflow:

 python main.py 
--project=project 
--region=region
--temp_location=location 
--runner=DataflowRunner 
--experiments=use_runner_v2 
--sdk_container_image=image_path

回复收藏 0 原文

~没有更多了~