编辑:[db:作者] 时间:2024-08-25 04:03:10
企业数据仓库培植须要数据开拓者投入大量的韶光和资源,对付数据团队来说,管理者如何评价他们事情的好坏呢?一群数据开拓者每天都加班加点,业务部门仍旧吐槽数据找不到,数据没有,又该如何评价呢?结合数据中台思想,数据仓库的培植目标是希望为业务供应尽可能完善的模型(须要的我都有),并且减少重复培植只管即便复用(本钱要足够低),此外,还须要符合统一的标准规范(数据标准)。
一、数仓完善度的衡量指标
数仓完善度是指经由数据开拓永劫光的开拓和迭代,现有的数据仓库资产是否覆盖了业务常用的查询场景,业务要的,模型是否已经培植完成?
衡量DWD层是否完善,常日看ODS层有多少表被 DWS/ADS/DM 层引用。由于 DWD 以上的层引用的越多,就解释越多的任务是基于原始数据进行深度聚合打算的,明细数据没有积累,无法被复用,数据洗濯、格式化、集成存在重复开拓。因此, 可以用跨层引用率指标衡量 DWD 的完善度。
–跨层引用率:ODS 层直接被 DWS/ADS/DM 层引用的表,占所有 ODS 层表(仅统计活 跃表)比例。跨层引用率越低越好,在数据中台模型设计规范中,一样平常哀求不许可涌现跨层引用,ODS 层数据只能被 DWD 引用。
DWS/ADS/DM 层完善度:考察汇总数据的完善度,一样平常紧张看汇总数据能直接知足多少查询需求(也便是用汇总层数据的查询比例衡量)。如果汇总数据无法知足需求,利用数据的人就必须利用明细数据,乃至是原始数据,可以用汇总数据查询比例衡量DWS/ADS/DM 层完善度
–汇总数据查询比例:DWS/ADS/DM 层的查询占所有查询的比例。要明确的是,这个跟跨层引用率不同,汇总查询比例不可能做到 100%,但值越高,解释上层的数据培植越完善,对付利用数据的人来说,查询速率和本钱会减少,用起来会更顺畅。
二、数仓复用度衡量指标
数据中台核心是追求模型的复用和共享,通过元数据中央的数据血缘图,可以看到,一个比较差的模型设计,自下而上是一条线。而一个空想的模型设计,它该当是交织的发散型构造。可以用模型引用系数作为指标,衡量数据模型设计的复用度。引用系数越高,解释数仓的复用性越好。
模型引用系数:一个模型被读取,直接产出下贱模型的均匀数量。比如一张 DWD 层表被 5 张 DWS 层表引用,这张 DWD 层表的引用系数便是 5,如果把 所有 DWD 层表(有下贱表的)引用系数取均匀值,则为 DWD 层表均匀模型引用系数, 一样平常低于 2 比较差,3 以上相比拟较好(履历值)。
三、数仓规范度衡量指标
在数据管理初期,我们统计创造80%的表的字段描述时不全的(不到100%),超过 40% 的表都没有分层信息,在模型设计层面,这显然是不规范的。除了看这个表有没有分层,还要看它有没有归属到主题域(例如交易域)如果没有归属主题域,就很 难找到这张表,也无法复用。其次,你要看表的命名。拿order_detai这个命名为例,当你看到这个表时,知道它是哪个主题域、业务过程?是全量数据的表,还是每天的增量数据?总的来说,通过这个表名获取的信息太有限了。一个规范的表命名该当包括主题域、分层、表是全量快照,还是增量等信息。除此之外,如果在表 A 中用户 ID 的命名是 UserID,在表 B 中用户 ID 命名是 ID,就会对 利用者造成困扰,这到底是不是一个东西。以是我们哀求相同的字段在不同的模型中,它的命名必须是同等的。常用的规范性指标可以从数据标准管理的核心角度设定,比如,字段描述覆盖率,模型分层信息覆盖率、命名不规范表占比等
总之,评价数据仓库培植好坏须要从多个维度进行考量,包括外部评价标准和内部评价标准。在量化指标方面,可以从完善度、复用度和规范性三个方面进行衡量,以确保数据仓库能够为企业带来更大的代价。
本文由大家都是产品经理作者【数据干饭人】,微信"大众年夜众号:【数据干饭人】,原创/授权 发布于大家都是产品经理,未经容许,禁止转载。
题图来自Unsplash,基于 CC0 协议。
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/rsq/111675.html
下一篇:返回列表
Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码
声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com