如何在 Pyspark 中以 parquet 格式编写 NullType 字段?
我正在读取 json 文件并通过 Spark 推断架构。其中一个字段是 arr: [] ,因此当我尝试将此 json 对象写入 parquet 格式时,它会引发错误: 遇到错误:…
胶水爬虫无法对大小 > 的 JSON 数据进行分类20MB
我是 AWS Glue 的新手。我在 s3 中有一个 JSON 格式的原始数据,大小 > 20MB。 对此 JSON 数据创建爬网程序后,在查看表详细信息时,分类和压缩类型显…
获取 AWS Glue 自定义转换中列的值
我正在 AWS Glue 中进行 ETL 工作。我需要从 base64 格式的表中解码文本 - 我在 Python3 中的自定义转换中执行此操作。 我的代码如下: def MyTransfo…
将 API 文件加载到 S3 中的子文件夹时粘合作业失败
我对此很陌生。 我使用 python 脚本创建了一个简单的 Glue 作业,用于发送 API 请求并将数据加载到 S3 中。将数据加载到顶部 S3 存储桶 (s3://my-buck…
AWS Glue Crawler - 创建为字符串的时间戳字段
我有一个数据文件,其中包含一个名为 extraction_time 的字段,该字段具有如下所示的字段。 ..,"extraction_time":"2022-03-15T02:33:39",.. 在我的爬…
如何解决 AWS Glue pyspark 脚本从 DocumentDB 引发 retryWrite 错误
在 AWSglue 中运行以下代码。作业能够从数据库读取数据,但在写入时失败。 调用 o102.pyWriteDynamicFrame 时发生错误。命令失败,出现错误 301:服务…
不支持的 DataType 情况:com.amazonaws.services.glue.schema.types.StringType@e7b95c9 和 DynamicNode:longnode
我尝试使用 AWS Glue 中的可视化编辑器从单个数据库中提取 27 个 DynamoDB 表。我已经成功抓取了数据库,我的工作流程是。 从源表 (DynamoDB) 中提取…
减少镶木地板文件数量的最佳方法
我有大约一百万个非常小的 parquet 文件(~ 14 KB),我想将它们合并到适合 HDFS 大小的文件(128 MB)。我想在 AWS 上执行此操作。 我的想法是: spa…
如何获取AWS Glue python 3.7的Pillow模块的whl文件
我正在尝试从 s3 目录创建缩略图,其 python 脚本在 AWS Glue 中处理。请帮助我创建或查找 Python 3.7 中 Pillow 模块的 whl 文件。…
在 AWS Glue 中查询 DynamicFrame
我有一个关于 DynamicFrames 的问题,我想在从目录获取数据时运行查询,并避免获取所有数据然后查询。 目前数据还不是很多,但将来可能会有。 现在,…
如何覆盖表设置“仅对此数据库中的新表使用 IAM 访问控制”使用 boto3 创建胶水数据库时
我正在尝试使用 boto3 创建胶水数据库,我们希望覆盖值 “仅对此数据库中的新表使用 IAM 访问控制”(这是湖泊形成设置)。下面是我们正在使用的示例…
将单个 DynamoDB 数据库中的所有 26 个表提取到 AWS Glue Catalog 中的最简单方法是什么
我正在尝试使用 AWS Athena 构建 AWS QuickSight 报告,AWS Athena 为所述报告构建特定视图。然而,尽管能够从 Dynamo 中选择整个数据库爬虫所需的所…
执行简单 ETL 任务时 AWS Glue 出现访问被拒绝问题
我在尝试运行 AWS Glue 时遇到错误,我正在尝试从爬虫程序的帮助下填充的表中复制数据。 下面给出了错误 调用 o91.pyWriteDynamicFrame 时发生错误。…
AWS Glue JSON 到 Parquet 的转换
我正在尝试使用 AWS Glue 将 JSON 文件转换为 Parquet,其中包含如下格式的数据: [ { "id": 1, "message": "test message of event 1" }, { "id": 2,…
AWS Glue Studio 未创建表
因此,我一直在使用 AWS Glue Studio 来创建 ETL 作业。我当前将其设置为目标节点是 S3 存储桶,但我还想在数据目录上创建一个表。但是,一旦我运行 E…