数据湖——数据集约化管理
打破数据孤岛
分析各种数据集
管理数据访问
加速机器学习
数据湖能力
01 数据集成能力
对任意类型的数据进行集成和存储,包括结构化、半结构化和非结构化数据。
02 数据治理能力
核心是维护好数据的元数据,另外管理各类数据相关的要素。
03 自动探索能力
需要具备多样化的分析能力,包括但不限于批处理、流式计算、交互式分析以及机器学习。
04 安全管控能力
对数据的使用权限进行管控,对敏感数据进行脱敏和加密处理。
05 质量检验能力
分析正确的前提是能够保证数据质量,因此需要对数据湖中的数据进行质量检验,为数据探索提供保障。