数据湖是一种用于创建单个存储库以存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation使您可以轻松设置、保护和管理数据湖。本博文将引导您使用 Lake Formation 来创建和探索数据湖:
o将数据添加到数据湖
o创建目录数据库
o将表从 Amazon S3 添加到目录数据库
o编辑标准元数据
o添加自定义元数据
先决条件
对于本博文,您需要:
创建数据湖
在AWS Lake Formation 控制台的左侧导航窗格中,选择 注册并提取 、**数据湖位置。 选择一个 S3 存储桶以在您的数据湖中容纳几个独立的数据源。有关更多信息,请参阅 什么是 AWS Lake Formation?
将数据添加到数据湖
现在,您已经将 S3 存储桶配置为 Lake Formation 的存储资源,您必须将数据添加到数据湖。您可以使用 AWS SDK、AWS CLI、S3 控制台或 Lake Formation 蓝图将数据添加到数据湖的 S3 存储桶存储资源中。
借助 Lake Formation,您可以发现并设置源数据的提取。添加用于加载或更新数据湖的工作流时,可以选择要添加的导入程序类型的蓝图或模板。Lake Formation 在 Lake Formation 控制台上为通用源数据类型提供了多个蓝图,旨在简化工作流的创建。工作流指向您的数据源和目标,并且指定了它们运行的频率。
对于本博文,请使用 AWS CLI 下载示例数据,然后将其上传到您的 S3 存储后端。其他导入方法(例如 Lake Formation 数据导入程序)不在本文讨论范围内。
AWS 开放数据注册表上提供的以下两个数据集中的示例:
在数据湖中制作两份 Amazon 客户评论数据集副本。您可以使用它们来模拟“生产”数据集和“测试”数据集,并了解在搜索元数据目录时如何定位其中一个或两个数据集。
为了演示 AWS 数据湖的灵活性,请将 CSV 和 Parquet 数据集都添加到您的数据湖。在这两种情况下,请为 S3 对象使用以下命名约定:
s3://BUCKET_NAME/DATABASE_NAME/TABLE_NAME/<data files>
将 Amazon 客户评论添加到数据湖
AWS 托管了一个注册表,可帮助用户共享和发现各种数据集。对于本博文,请将Amazon 客户评论数据集的子集添加到数据湖。您无须复制完整的评论数据集,只需复制观看评论中较小的 226 MB 部分。您需要在数据湖中添加此数据的两个副本,以模拟单独的“生产”数据库和“测试”数据库。
# 使用您的存储桶名称进行替换:
YOUR_BUCKET=lf-metadata-demo
s3://amazon-reviews-pds/parquet/product_category=Watches/ \
s3://$YOUR_BUCKET/amazon-reviews-prod/amazon-reviews/ --recursive
s3://amazon-reviews-pds/parquet/product_category=Watches/ \
s3://$YOUR_BUCKET/amazon-reviews-test/amazon-reviews/ --recursive
复制代码
将纽约出租车行车历史记录添加到数据湖
按照您对 Amazon 客户评论数据集所执行的操作,将纽约出租车行车历史记录的一个小子集从 AWS 开放数据注册表复制到数据湖:
# 使用您的存储桶名称进行替换:
YOUR_BUCKET=lf-metadata-demo
“s3://nyc-tlc/trip>“s3://$YOUR_BUCKET/ny-taxi/trip-data/green_tripdata_2018-02.csv”
复制代码
原文链接: