将数据从 Hive 导出到 AWS Redshift
我正在尝试使用 hive -e 导出 1TB 的 hive 数据,因为我们没有访问 hdfs 文件系统并将数据加载到 Redshift 的选项。数据已导出为多个小文件,例如 300…
如何从 AWS Glue 更新 DynamoDB 表? (pyspark)
我可以使用写入表 glueContext.write_dynamic_frame.from_options 但是,这会覆盖表格并查看文档,我看不到更新它的方法?我有两个独立的管道,我想将…
当 Glue 作业失败时,glue.driver.aggregate.numFailedTasks CloudWatch 指标不会记录失败
我有一个 Glue PySpark 作业,大约 2 分钟后失败,并出现 AnalysisException 和运行状态 Failed。我想检测它的 CloudWatch 警报。在 CloudWatch 指标…
AWS Glue,同一作业中的多个书签?
假设我有一个脚本正在加载具有不同模式的多个框架, job.init() DefinitionDyf = glueContext.create_dynamic_frame_from_options(connection_type = …
如何在 AWS Glue 中编译多个 Excel 文件并将其保存在一个 Excel 文件中
我能够生成多个 Excel 文件并在本地计算机上使用 pandas.ExcelWriter 对其进行编译,但如何使用 AWS Glue 获得相同的结果? def backup_report(filena…
INVALID_TABLE_PROPERTY:对于输入字符串:“0-23” (属性:projection.hour.digits)在 Athena 上
运行此查询时出错 在 Athena 上查询 SELECT * FROM "db"."thermostat" where id='95686' and "date" = '2022/03/07' AND hour =13 投影分区 数据位于…
正确访问 Glue 中的数据目录表
我在 Athena 中创建了一个表,没有来自 S3 源的爬虫。它出现在我的数据目录中。然而,当我尝试通过 Glue ETL 中的 python 作业访问它时,它显示它没有…
AWS Glue 执行程序内存限制显示错误不明确选项:--conf 可能匹配
我的胶水作业出现“由于内存不足而失败” 我已浏览链接 AWS Glue 执行程序内存限制 我添加了 键: --conf 值:spark.yarn.executor.memoryOverhead=7g…
AWS Glue 没有为 pyspark 提供一致的结果 - orderBy
在本地运行 pyspark 时,我得到了正确的结果,列表按 BOOK_ID 排序,但是在部署 AWS Glue 作业时,这些书籍似乎没有排序 root |-- AUTHORID: integer …
Spark 结构化流 - Kinesis 作为数据源
我正在尝试使用 psypark 结构化流来使用 kinesis 数据流记录。 我正在尝试在 awsglue 批处理作业中运行此代码。我的目标是使用检查点并将检查点和数据…
“许可被拒绝”使用 Athena 发送查询时出错
想要实现 我想在 AWS Athena 中执行 SELECT 语句,但收到以下错误。 Glue目录已准备好,元信息已准备好,DDL可以显示。 如果您能告诉我如何使查询正常…
jaydebeapi 在 AWS Glue 上找不到 jar
我正在尝试通过 AWS Glue 上的 Python 中的 jaydebeapi 连接到 Oracle 数据库。我收到错误消息: TypeError: Class oracle.jdbc.driver.OracleDriver …
Spark:将正常大小的 Dataframe 与非常大的 Dataframe 连接的最佳方式
我的 DF1 有大约 50k 条记录。 DF2 拥有来自 s3 parq 的超过 50 亿条记录。我需要在两个 DF 中对 md5 哈希进行左外连接,但正如预期的那样,它既慢又…
在glue的帮助下从s3存储桶.csv文件在aws athena中创建表
由于我是 AWS 服务的新手,实际上我正在尝试从 s3 存储桶 .csv 文件创建 athena 表,并为此创建了爬虫。在我的 Csv 文件中,最初有以下输入数据。 nam…
- 共 1 页
- 1