当前位置：文江博客话题详情

如何将非常大的CSV导入DynamoDB？

发布于 2025-02-05 17:52:53 字数 194 浏览 1 评论 0原文

因此，我的S3数据库中有很大的CSV文件（200万+行），我想将其导入DynamoDB。

我尝试的是：

lambda 我设法使lambda功能正常工作，但是在我的功能超时后，只有大约120k行进口到DDB。
管道使用管道时，它被卡在“等待跑步者”上，然后完全停止

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

谁的新欢旧爱 2025-02-12 17:52:53

这是一种无服务器的方法，可以在带有2个lambdas和一个SQS队列的小块中处理大型.csv：

使用一次性读取器lambda，使用 s3> s3 select 从S3Object S 中查询.csv到位。请参阅 selectObjectContcontent API API。
读者Lambda将主要键放入SQS队列中。添加一个死信队列以捕获错误。
将队列添加为作家Lambda的活动源。启用批处理。如果需要，限制并发。
并行作者lambda Invocations从.csv使用S3选择：select * where * wery s.primary_key中获取其主要键的记录，in（'id1'，'id2'，'id2'，'id3'）从S3Object S
作者Lambda将其批次记录写入DynamoDB表。

回复收藏 0 原文

一桥轻雨一伞开 2025-02-12 17:52:53

您可以设置外部EMR表（或者也许是Athena，因此您不需要EMR群集），一个用于S3文件，使用 dynamyodbstoragehandler 连接器。它支持将数据从DynamoDB到S3的复制，还仅通过在表之间运行和选择来将数据从S3复制到DynamoDB。

设置外部S3文件表的示例OS将是：

CREATE EXTERNAL TABLE s3_features_csv
    (feature_id       BIGINT,
    feature_name      STRING,
    feature_class     STRING,
    state_alpha       STRING,
    prim_lat_dec      DOUBLE,
    prim_long_dec     DOUBLE,
    elev_in_ft        BIGINT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION 's3://<your_bucket>/<prefix_of_folder_containing_files>';

要设置DynamoDB外部表是：

CREATE EXTERNAL TABLE ddb_features
    (feature_id   BIGINT,
    feature_name  STRING,
    feature_class STRING,
    state_alpha   STRING,
    prim_lat_dec  DOUBLE,
    prim_long_dec DOUBLE,
    elev_in_ft    BIGINT)
STORED BY 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler'
TBLPROPERTIES(
    "dynamodb.table.name" = "Features",
    "dynamodb.column.mapping"="feature_id:Id,feature_name:Name,feature_class:Class,state_alpha:State,prim_lat_dec:Latitude,prim_long_dec:Longitude,elev_in_ft:Elevation"
);

然后从S3复制到DynamoDB：

INSERT OVERWRITE TABLE ddb_features
SELECT
    feature_id,
    feature_name,
    feature_class,
    state_alpha,
    prim_lat_dec,
    prim_long_dec,
    elev_in_ft
FROM s3_features_csv;

覆盖物使其成为DynamoDB上的任何冲突记录（使用相同的PK和SK）都会覆盖通过插入的新数据。

You could setup external EMR tables (or maybe Athena so you'd not need an EMR cluster), one for the S3 files and one for the DynamoDb table using the DynamoDbStorageHandler connector. It supports copying data from DynamoDB to S3 and also from S3 to DynamoDB just by running inserts and selects between the tables.

An example os setting up an external S3 file table would be

CREATE EXTERNAL TABLE s3_features_csv
    (feature_id       BIGINT,
    feature_name      STRING,
    feature_class     STRING,
    state_alpha       STRING,
    prim_lat_dec      DOUBLE,
    prim_long_dec     DOUBLE,
    elev_in_ft        BIGINT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION 's3://<your_bucket>/<prefix_of_folder_containing_files>';

And to setup the DynamoDB external table would be:

CREATE EXTERNAL TABLE ddb_features
    (feature_id   BIGINT,
    feature_name  STRING,
    feature_class STRING,
    state_alpha   STRING,
    prim_lat_dec  DOUBLE,
    prim_long_dec DOUBLE,
    elev_in_ft    BIGINT)
STORED BY 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler'
TBLPROPERTIES(
    "dynamodb.table.name" = "Features",
    "dynamodb.column.mapping"="feature_id:Id,feature_name:Name,feature_class:Class,state_alpha:State,prim_lat_dec:Latitude,prim_long_dec:Longitude,elev_in_ft:Elevation"
);

And then to copy from S3 to DynamoDB:

INSERT OVERWRITE TABLE ddb_features
SELECT
    feature_id,
    feature_name,
    feature_class,
    state_alpha,
    prim_lat_dec,
    prim_long_dec,
    elev_in_ft
FROM s3_features_csv;

The OVERWRITE makes it so any conflicting records on DynamoDB (with same PK and SK) get overwritten by the new data being inserted.

回复收藏 0 原文

~没有更多了~