再也不用敲SQL DDL了!数据湖时代Google的元数据自动管理技术

一、阅读目的

目前不管是数仓、Lakehouse、数据湖都把开放数据湖中数据的分析作为当下的一个能力突破点。前面有看过论文“Data lake management: Challenges and opportunities”主要分析数据湖管理领域趋势和挑战,里面有提到google的Goods在元数据管理方面做了不错的工业实践。

二、解决的核心问题(场景/技术)

1、Goods在Google元数据体系的位置

从Google bigquery相关资料可以看出google有一套统一的Data catalog,Goods可以理解是基于这套Data catalog基础服务提供的面向数据湖场景元数据管理的完善能力。另外googole还有一篇论文“Big Metadata: When Metadata is Big Data”则是讲在large scale表的元数据及统计信息管理的创新,也是基于Data catalog的工作,这篇文章的解析可以参考本公众号的“Delta Lake

THE END
Copyright © 2024 亿华云