aws-glue

aws-glue

文章 0 浏览 0

将数据从 Hive 导出到 AWS Redshift

我正在尝试使用 hive -e 导出 1TB 的 hive 数据,因为我们没有访问 hdfs 文件系统并将数据加载到 Redshift 的选项。数据已导出为多个小文件,例如 300…

相思故 2025-01-13 17:47:58 0 0

如何从 AWS Glue 更新 DynamoDB 表? (pyspark)

我可以使用写入表 glueContext.write_dynamic_frame.from_options 但是,这会覆盖表格并查看文档,我看不到更新它的方法?我有两个独立的管道,我想将…

几度春秋 2025-01-13 13:32:54 0 0

当 Glue 作业失败时,glue.driver.aggregate.numFailedTasks CloudWatch 指标不会记录失败

我有一个 Glue PySpark 作业,大约 2 分钟后失败,并出现 AnalysisException 和运行状态 Failed。我想检测它的 CloudWatch 警报。在 CloudWatch 指标…

屋檐 2025-01-13 05:29:16 0 0

AWS Glue,同一作业中的多个书签?

假设我有一个脚本正在加载具有不同模式的多个框架, job.init() DefinitionDyf = glueContext.create_dynamic_frame_from_options(connection_type = …

葬﹪忆之殇 2025-01-12 23:55:40 0 0

aws 胶水爬虫太慢

胶水爬虫有没有只爬取s3下某些文件夹的功能?目前,我们的管道变得越来越慢,因为我们不断有新数据进入。我们当然知道哪些文件夹是新的以及采用哪种模…

独木成林 2025-01-12 21:37:37 0 0

如何在 AWS Glue 中编译多个 Excel 文件并将其保存在一个 Excel 文件中

我能够生成多个 Excel 文件并在本地计算机上使用 pandas.ExcelWriter 对其进行编译,但如何使用 AWS Glue 获得相同的结果? def backup_report(filena…

薄荷→糖丶微凉 2025-01-12 20:28:39 0 0

INVALID_TABLE_PROPERTY:对于输入字符串:“0-23” (属性:projection.hour.digits)在 Athena 上

运行此查询时出错 在 Athena 上查询 SELECT * FROM "db"."thermostat" where id='95686' and "date" = '2022/03/07' AND hour =13 投影分区 数据位于…

深爱不及久伴 2025-01-12 15:23:50 0 0

正确访问 Glue 中的数据目录表

我在 Athena 中创建了一个表,没有来自 S3 源的爬虫。它出现在我的数据目录中。然而,当我尝试通过 Glue ETL 中的 python 作业访问它时,它显示它没有…

苍暮颜 2025-01-12 12:42:44 1 0

AWS Glue 执行程序内存限制显示错误不明确选项:--conf 可能匹配

我的胶水作业出现“由于内存不足而失败” 我已浏览链接 AWS Glue 执行程序内存限制 我添加了 键: --conf 值:spark.yarn.executor.memoryOverhead=7g…

转瞬即逝 2025-01-12 10:28:10 0 0

AWS Glue 没有为 pyspark 提供一致的结果 - orderBy

在本地运行 pyspark 时,我得到了正确的结果,列表按 BOOK_ID 排序,但是在部署 AWS Glue 作业时,这些书籍似乎没有排序 root |-- AUTHORID: integer …

空袭的梦i 2025-01-12 08:10:28 1 0

Spark 结构化流 - Kinesis 作为数据源

我正在尝试使用 psypark 结构化流来使用 kinesis 数据流记录。 我正在尝试在 awsglue 批处理作业中运行此代码。我的目标是使用检查点并将检查点和数据…

苹果你个爱泡泡 2025-01-12 03:38:00 0 0

“许可被拒绝”使用 Athena 发送查询时出错

想要实现 我想在 AWS Athena 中执行 SELECT 语句,但收到以下错误。 Glue目录已准备好,元信息已准备好,DDL可以显示。 如果您能告诉我如何使查询正常…

海拔太高太耀眼 2025-01-11 20:20:57 0 0

jaydebeapi 在 AWS Glue 上找不到 jar

我正在尝试通过 AWS Glue 上的 Python 中的 jaydebeapi 连接到 Oracle 数据库。我收到错误消息: TypeError: Class oracle.jdbc.driver.OracleDriver …

他不在意 2025-01-11 05:45:45 0 0

Spark:将正常大小的 Dataframe 与非常大的 Dataframe 连接的最佳方式

我的 DF1 有大约 50k 条记录。 DF2 拥有来自 s3 parq 的超过 50 亿条记录。我需要在两个 DF 中对 md5 哈希进行左外连接,但正如预期的那样,它既慢又…

若水微香 2025-01-11 04:40:34 0 0

在glue的帮助下从s3存储桶.csv文件在aws athena中创建表

由于我是 AWS 服务的新手,实际上我正在尝试从 s3 存储桶 .csv 文件创建 athena 表,并为此创建了爬虫。在我的 Csv 文件中,最初有以下输入数据。 nam…

紧拥背影 2025-01-11 02:37:58 1 0
更多

推荐作者

Promise

文章 0 评论 0

qq_lbRlsh

文章 0 评论 0

待"谢繁草

文章 0 评论 0

yy2010hell

文章 0 评论 0

漫无边际

文章 0 评论 0

傲娇萝莉攻

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文