将LARGA数据加载到Amazon Sagemaker笔记本

发布于 2025-01-29 13:36:21 字数 316 浏览 5 评论 0 原文

我有2个文件夹，在每个文件夹上，每个文件夹都有70个CSV文件，每个文件的大小为3MB至5MB，因此一般而言，数据大约是20亿行，每个列有5列。

我使用Amazon Wrangler S3.Read_CSV将所有70 CSV的文件夹加载到数据框架上，不确定这是否是一种很好的方法，因为数据确实很大。

我想知道如何使用AWS Wrangler S3.ReadCSV从这两个文件夹中加载整个CSV文件，还是应该使用Pyspark？

另一个问题是，是否可以在本地使用Amazon Sagemaker依据进行本地工作？我不确定是否使用萨吉式笔记本进行管道开发可能会给我的客户花费很多。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

黑白记忆 2025-02-05 13:36:21

您也可以使用pyspark将数据也加载到笔记本中，请参见此repo 用于说明。

至于SageMaker，您可以使用 sagemaker python sdk 或：//boto3.amazonaws.com/v1/documentation/api/latest/reference/services/services/sagemaker.html“ rel =“ nofollow noreferrer”> boto3 以从您本地计算机运行作业。您还可以创建一个具有较小实例大小的笔记本实例，在数据子集上进行实验，然后触发a