元数据被认为是数据治理的基石
元数据最简单的定义是“描述数据的数据”,是为了描述数据的相关信息而存在的数据,例如记录数据的存储位置、模型定义、生命周期、血缘关系等信息。
在数据仓库体系中,元数据代表了一种统计数据从元数据、数据仓库到数据应用的全链路信息,记录了统计数据从产生到展示的全部过程。对于企业而言,元数据是跟企业所使用的物理数据、业务流程、数据结构等有关的信息,描述了数据(如数据库、数据模型)、概念(如业务流程、应用系统、技术架构)以及它们之间的关系。
也可以说元数据就像“户口本”,户口本中除了有姓名、出生日期、住址、民族等信息外,还有家庭的血缘关系,父子关系、兄弟关系等。这些信息就构成了对这个人的详细描述,那这些信息就是描述这个人的元数据。通过户口本中的元数据,我们不仅能够了解一个人的基本信息,还能够了解其家庭关系。
元数据作用
从功能角度,元数据管理有两个方面的用处:
统揽全局
通过元数据以企业全局视角对企业各业务域的数据资产进行盘点,实现企业数据资源的统一梳理和盘查,有助于发现分布在不同系统、位置的数据,让隐匿的数据显性化。数据地图包括了数据资源的基本信息,存储位置信息、数据结构信息、各数据之间关系信息、数据和人之间的关系信息、数据使用情况信息等,使数据资源信息详细、统一、透明,降低“找数据”的沟通成本,为数据的使用和大数据挖掘提供支撑。
追更溯源,发现数据问题的本质
企业在做数据分析的时候,数据分析结果不正确,原因可能是数据分析过程出现数据问题,也可能是数据源本身就有问题,还可能是数据在加工处理过程中出现了数据问题……通过元数据血缘分析,能够快速定位数据来源和加工处理过程,能够帮助数据分析人员快速定位数据问题。另外,通过元数据血缘关系分析,可以理解不同数据指标间的关系,分析产生指标的数据源头波动情况带来的影响。
从使用对象的角度,元数据管理对不同人有不同的作用:
1、对技术人员而言,元数据管理平台将分散、存储结构差异大的资源信息进行描述、定位、检索、评估、分析五大操作,以描述和分类的形式实现对信息的格式化,从而为机器处理创造了可能,大大降低了数据治理的人工成本。正因如此,元数据管理已经成为很多大型数据治理项目的基础。
2、对业务人员而言,元数据管理平台通过对业务指标、业务含义、业务规则、取数口径、影响范围等信息进行各方位管控,协助他们快速了解业务相关内容,进行数据资产的管理。
总结
元数据很重要,是否需要单独建设元数据管理系统,个人觉得有待商酌,毕竟元数据是个概念,不同层级的数据也有不同的元数据,而不同层级的数据可能已经有对应的偏业务的管理系统了,一般而言在这些管理系统里已经将对应的元数据给管理起来了。