aws-glue

aws-glue

文章 0 浏览 2

如何在 Pyspark 中以 parquet 格式编写 NullType 字段?

我正在读取 json 文件并通过 Spark 推断架构。其中一个字段是 arr: [] ,因此当我尝试将此 json 对象写入 parquet 格式时,它会引发错误: 遇到错误:…

猫烠⑼条掵仅有一顆心 2025-01-16 14:13:22 1 0

胶水爬虫无法对大小 > 的 JSON 数据进行分类20MB

我是 AWS Glue 的新手。我在 s3 中有一个 JSON 格式的原始数据,大小 > 20MB。 对此 JSON 数据创建爬网程序后,在查看表详细信息时,分类和压缩类型显…

源来凯始玺欢你 2025-01-16 10:54:21 5 0

获取 AWS Glue 自定义转换中列的值

我正在 AWS Glue 中进行 ETL 工作。我需要从 base64 格式的表中解码文本 - 我在 Python3 中的自定义转换中执行此操作。 我的代码如下: def MyTransfo…

暖心男生 2025-01-16 08:47:59 2 0

将 API 文件加载到 S3 中的子文件夹时粘合作业失败

我对此很陌生。 我使用 python 脚本创建了一个简单的 Glue 作业,用于发送 API 请求并将数据加载到 S3 中。将数据加载到顶部 S3 存储桶 (s3://my-buck…

甚是思念 2025-01-16 05:51:43 1 0

AWS Glue Crawler - 创建为字符串的时间戳字段

我有一个数据文件,其中包含一个名为 extraction_time 的字段,该字段具有如下所示的字段。 ..,"extraction_time":"2022-03-15T02:33:39",.. 在我的爬…

把梦留给海 2025-01-16 03:36:56 3 0

如何解决 AWS Glue pyspark 脚本从 DocumentDB 引发 retryWrite 错误

在 AWSglue 中运行以下代码。作业能够从数据库读取数据,但在写入时失败。 调用 o102.pyWriteDynamicFrame 时发生错误。命令失败,出现错误 301:服务…

淡淡绿茶香 2025-01-16 01:32:10 1 0

不支持的 DataType 情况:com.amazonaws.services.glue.schema.types.StringType@e7b95c9 和 DynamicNode:longnode

我尝试使用 AWS Glue 中的可视化编辑器从单个数据库中提取 27 个 DynamoDB 表。我已经成功抓取了数据库,我的工作流程是。 从源表 (DynamoDB) 中提取…

最后的乘客 2025-01-16 01:24:08 5 0

减少镶木地板文件数量的最佳方法

我有大约一百万个非常小的 parquet 文件(~ 14 KB),我想将它们合并到适合 HDFS 大小的文件(128 MB)。我想在 AWS 上执行此操作。 我的想法是: spa…

凉宸 2025-01-15 18:12:09 2 0

如何获取AWS Glue python 3.7的Pillow模块的whl文件

我正在尝试从 s3 目录创建缩略图,其 python 脚本在 AWS Glue 中处理。请帮助我创建或查找 Python 3.7 中 Pillow 模块的 whl 文件。…

川水往事 2025-01-15 14:08:13 3 0

在 AWS Glue 中查询 DynamicFrame

我有一个关于 DynamicFrames 的问题,我想在从目录获取数据时运行查询,并避免获取所有数据然后查询。 目前数据还不是很多,但将来可能会有。 现在,…

别闹i 2025-01-15 12:14:19 1 0

如何覆盖表设置“仅对此数据库中的新表使用 IAM 访问控制”使用 boto3 创建胶水数据库时

我正在尝试使用 boto3 创建胶水数据库,我们希望覆盖值 “仅对此数据库中的新表使用 IAM 访问控制”(这是湖泊形成设置)。下面是我们正在使用的示例…

浅听莫相离 2025-01-15 05:19:58 6 0

将单个 DynamoDB 数据库中的所有 26 个表提取到 AWS Glue Catalog 中的最简单方法是什么

我正在尝试使用 AWS Athena 构建 AWS QuickSight 报告,AWS Athena 为所述报告构建特定视图。然而,尽管能够从 Dynamo 中选择整个数据库爬虫所需的所…

廻憶裏菂餘溫 2025-01-15 03:43:38 5 0

执行简单 ETL 任务时 AWS Glue 出现访问被拒绝问题

我在尝试运行 AWS Glue 时遇到错误,我正在尝试从爬虫程序的帮助下填充的表中复制数据。 下面给出了错误 调用 o91.pyWriteDynamicFrame 时发生错误。…

叶落知秋 2025-01-15 00:05:44 0 0

AWS Glue JSON 到 Parquet 的转换

我正在尝试使用 AWS Glue 将 JSON 文件转换为 Parquet,其中包含如下格式的数据: [ { "id": 1, "message": "test message of event 1" }, { "id": 2,…

梦一生花开无言 2025-01-14 21:49:11 2 0

AWS Glue Studio 未创建表

因此,我一直在使用 AWS Glue Studio 来创建 ETL 作业。我当前将其设置为目标节点是 S3 存储桶,但我还想在数据目录上创建一个表。但是,一旦我运行 E…

爱她像谁 2025-01-14 14:25:47 3 0
更多

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文