第 10 页 - aws-glue - 文江博客

投稿关注

aws-glue

文章 0 浏览 2

如何在 Pyspark 中以 parquet 格式编写 NullType 字段？

我正在读取 json 文件并通过 Spark 推断架构。其中一个字段是 arr: [] ，因此当我尝试将此 json 对象写入 parquet 格式时，它会引发错误：遇到错误：…

猫烠⑼条掵仅有一顆心 2025-01-16 14:13:22 1 0

胶水爬虫无法对大小 > 的 JSON 数据进行分类20MB

我是 AWS Glue 的新手。我在 s3 中有一个 JSON 格式的原始数据，大小 > 20MB。对此 JSON 数据创建爬网程序后，在查看表详细信息时，分类和压缩类型显…

源来凯始玺欢你 2025-01-16 10:54:21 5 0

获取 AWS Glue 自定义转换中列的值

我正在 AWS Glue 中进行 ETL 工作。我需要从 base64 格式的表中解码文本 - 我在 Python3 中的自定义转换中执行此操作。我的代码如下： def MyTransfo…

暖心男生 2025-01-16 08:47:59 2 0

将 API 文件加载到 S3 中的子文件夹时粘合作业失败

我对此很陌生。我使用 python 脚本创建了一个简单的 Glue 作业，用于发送 API 请求并将数据加载到 S3 中。将数据加载到顶部 S3 存储桶 (s3://my-buck…

甚是思念 2025-01-16 05:51:43 1 0

AWS Glue Crawler - 创建为字符串的时间戳字段

我有一个数据文件，其中包含一个名为 extraction_time 的字段，该字段具有如下所示的字段。 ..,"extraction_time":"2022-03-15T02:33:39",.. 在我的爬…

把梦留给海 2025-01-16 03:36:56 3 0

如何解决 AWS Glue pyspark 脚本从 DocumentDB 引发 retryWrite 错误

在 AWSglue 中运行以下代码。作业能够从数据库读取数据，但在写入时失败。调用 o102.pyWriteDynamicFrame 时发生错误。命令失败，出现错误 301：服务…

淡淡绿茶香 2025-01-16 01:32:10 1 0

不支持的 DataType 情况：com.amazonaws.services.glue.schema.types.StringType@e7b95c9 和 DynamicNode：longnode

我尝试使用 AWS Glue 中的可视化编辑器从单个数据库中提取 27 个 DynamoDB 表。我已经成功抓取了数据库，我的工作流程是。从源表 (DynamoDB) 中提取…

最后的乘客 2025-01-16 01:24:08 5 0

减少镶木地板文件数量的最佳方法

我有大约一百万个非常小的 parquet 文件（~ 14 KB），我想将它们合并到适合 HDFS 大小的文件（128 MB）。我想在 AWS 上执行此操作。我的想法是： spa…

凉宸 2025-01-15 18:12:09 2 0

如何获取AWS Glue python 3.7的Pillow模块的whl文件

我正在尝试从 s3 目录创建缩略图，其 python 脚本在 AWS Glue 中处理。请帮助我创建或查找 Python 3.7 中 Pillow 模块的 whl 文件。…

川水往事 2025-01-15 14:08:13 3 0

在 AWS Glue 中查询 DynamicFrame

我有一个关于 DynamicFrames 的问题，我想在从目录获取数据时运行查询，并避免获取所有数据然后查询。目前数据还不是很多，但将来可能会有。现在，…

别闹i 2025-01-15 12:14:19 1 0

如何覆盖表设置“仅对此数据库中的新表使用 IAM 访问控制”使用 boto3 创建胶水数据库时

我正在尝试使用 boto3 创建胶水数据库，我们希望覆盖值 “仅对此数据库中的新表使用 IAM 访问控制”（这是湖泊形成设置）。下面是我们正在使用的示例…

浅听莫相离 2025-01-15 05:19:58 6 0

将单个 DynamoDB 数据库中的所有 26 个表提取到 AWS Glue Catalog 中的最简单方法是什么

我正在尝试使用 AWS Athena 构建 AWS QuickSight 报告，AWS Athena 为所述报告构建特定视图。然而，尽管能够从 Dynamo 中选择整个数据库爬虫所需的所…

廻憶裏菂餘溫 2025-01-15 03:43:38 5 0

执行简单 ETL 任务时 AWS Glue 出现访问被拒绝问题

我在尝试运行 AWS Glue 时遇到错误，我正在尝试从爬虫程序的帮助下填充的表中复制数据。下面给出了错误调用 o91.pyWriteDynamicFrame 时发生错误。…

叶落知秋 2025-01-15 00:05:44 0 0

AWS Glue JSON 到 Parquet 的转换

我正在尝试使用 AWS Glue 将 JSON 文件转换为 Parquet，其中包含如下格式的数据： [ { "id": 1, "message": "test message of event 1" }, { "id": 2,…

梦一生花开无言 2025-01-14 21:49:11 2 0

AWS Glue Studio 未创建表

因此，我一直在使用 AWS Glue Studio 来创建 ETL 作业。我当前将其设置为目标节点是 S3 存储桶，但我还想在数据目录上创建一个表。但是，一旦我运行 E…

爱她像谁 2025-01-14 14:25:47 3 0

十二

文章 0 评论 0

关注

飞烟轻若梦

文章 0 评论 0

关注

OPleyuhuo

文章 0 评论 0

关注

wxb0109

文章 0 评论 0

关注

旧城空念

文章 0 评论 0

关注

-小熊_

文章 0 评论 0

友情链接

文江博客

aws-glue

如何在 Pyspark 中以 parquet 格式编写 NullType 字段？

胶水爬虫无法对大小 > 的 JSON 数据进行分类20MB

获取 AWS Glue 自定义转换中列的值

将 API 文件加载到 S3 中的子文件夹时粘合作业失败

AWS Glue Crawler - 创建为字符串的时间戳字段

如何解决 AWS Glue pyspark 脚本从 DocumentDB 引发 retryWrite 错误

不支持的 DataType 情况：com.amazonaws.services.glue.schema.types.StringType@e7b95c9 和 DynamicNode：longnode

减少镶木地板文件数量的最佳方法

如何获取AWS Glue python 3.7的Pillow模块的whl文件

在 AWS Glue 中查询 DynamicFrame

如何覆盖表设置“仅对此数据库中的新表使用 IAM 访问控制”使用 boto3 创建胶水数据库时

将单个 DynamoDB 数据库中的所有 26 个表提取到 AWS Glue Catalog 中的最简单方法是什么

执行简单 ETL 任务时 AWS Glue 出现访问被拒绝问题

AWS Glue JSON 到 Parquet 的转换

AWS Glue Studio 未创建表

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接