79c42d06fa7ec23a84eb475cd12972cb.gif

为充分利用Amazon DynamoDB中的运营数据以获取有价值见解,企业常需构建自定义数据管道,这不仅耗时耗力,而且对核心业务贡献低微。

亚马逊云科技的Amazon DynamoDB与Amazon SageMaker Lakehouse的zero-ETL集成功能应运而生,帮助用户轻松运行分析和机器学习工作负载,且不占用Amazon DynamoDB表容量。同时Amazon SageMaker Lakehouse可统一用户在Amazon S3和Amazon Redshift中的所有数据,实现基于单一数据副本构建强大的分析和人工智能与机器学习应用程序。

借助zero-ETL集成功能,用户可较少甚至无需再构建ETL数据管道,即可利用Amazon DynamoDB运营数据运行分析和机器学习工作负载,并且不影响生产工作流程。

开始使用

本文演示需要将Amazon DynamoDB中的数据与Amazon SageMaker Lakehouse管理的Amazon S3数据湖进行zero-ETL集成。在设置zero-ETL集成之前,需要完成一些准备条件,您可复制下方链接访问Amazon DynamoDB文档页面,了解更多关于如何设置的详细信息。

Amazon DynamoDB文档:

https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/amazon-sagemaker-lakehouse-for-DynamoDB.html

完成所有前提条件后即可开始进行集成。导航到Amazon Glue控制台,在“数据集成和ETL”下选择“zero-ETL集成”,再选择“创建zero-ETL集成”。

9eb583fbc63a89c3abcfb158fa5c4218.png

这里您可以选择数据源。本文演示选择Amazon DynamoDB,然后点击下一步。

cb9ea51ef12b89733a140f61446efbf0.png

接下来需要配置源和目标详细信息。本文演示在源详细信息部分选择Amazon DynamoDB表,在目标详细信息部分指定在Amazon Glue数据目录中设置的Amazon S3存储桶。

501444b473f3d61be30008e13f711b17.png

为了设置此集成,需要一个Amazon IAM角色授予Amazon Glue必要的权限,有关配置Amazon IAM权限的指导,请复制下方链接访问Amazon DynamoDB文档页面。此外,如果您尚未为Amazon Glue数据目录配置资源策略,可以选择“为我修复”来自动添加所需的资源策略。

Amazon DynamoDB文档:

https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/amazon-sagemaker-lakehouse-for-DynamoDB.html

e5953fa77234265004ce9a146449cb0c.png

在此您可以选择配置输出。在“数据分区”下,您可以使用Amazon DynamoDB表键进行分区,或指定自定义分区键。完成配置后,选择“下一步”。

c18899a695bca0b23fb997be913e46e8.png

由于本文演示选择了“为我修复”,所以需要审查所需的更改,并选择“继续”,然后才能进入下一步。

27f65aba20e993e21cd3abbd8e9d4ebb.png

在下一页您可以灵活配置数据加密,您可以使用Amazon Key Management Servic(Amazon KMS)或自定义加密密钥,再为集成指定一个名称并选择“下一步”。

Amazon KMS:

https://aws.amazon.com/cn/kms/

4a7538a563bab169e8c453c951079b58.png

最后一步您需要查看配置,满意后再选择“下一步”,创建zero-ETL集成。

9960133ab3ec4bd1397c0d6eed52378b.png

初始数据摄取完成后,就可以使用

zero-ETL集成,完成时间取决于源Amazon DynamoDB表的大小。

0b123c3f95bc028cfe0bf389c5fd843f.png

导航到左侧导航面板中数据目录下的表,您可以看到包括架构在内的更多详细信息。在引擎盖下,zero-ETL集成使用Apache Iceberg,来转换与Amazon DynamoDB中的数据格式和结构相关的内容,并将其存储到Amazon S3中。

93e814d148e8d5c532a3ce7025cfa6b7.png

最后,您可以确认所有数据都已存储在Amazon S3存储桶中。

82cf321a0aae153713fe520cce8344eb.png

Amazon SageMaker Lakehouse与Amazon DynamoDB的zero-ETL集成功能,将极大降低数据迁移的复杂性和操作负担,帮助用户专注于提取见解而非管理数据管道。

您可访问Amazon DynamoDB文档,了解如何使用Amazon DynamoDB与Amazon SageMaker Lakehouse的zero-ETL集成功能,来优化您的数据分析工作流程。

Amazon DynamoDB文档:

https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/amazon-sagemaker-lakehouse-for-DynamoDB.html

680d9d626f2871ed8ad42f0f66252ad3.png

d5812d16f340fa7d188d26f8587496fc.png

5a042c71ea9c1cf04cea40b758526e1b.png

f5f1c5be74237645c25fd92b2c08c623.gif

星标不迷路,开发更极速!

关注后记得星标「亚马逊云开发者」

听说,点完下面4个按钮

就不会碰到bug了!

2b306fcc27c945c7bdf8c02f61d6f5d0.gif

点击阅读原文查看博客!获得更详细内容!

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐