数据治理一共分为四层
Ods也叫贴源数据层
聊数据治理的分层,其实特别简单
首先,就是咱们常说的贴源层,英文叫ODS。这层是啥呢?就是你刚从菜市场买回来的菜,带着泥,带着土,甚至还有点烂叶子。它就是你业务系统里最原始的数据,APP后台产生啥,它就记啥,收银机里出啥,它就存啥。这层数据最大的特点就是“原汁原味”,但也最“脏乱差”,它的存在就是为了留个底,告诉你业务最开始发生的时候,到底是啥样。
然后,咱们得把这些“带泥的菜”处理一下,这就到了明细层,也就是DWD。这一步就是洗菜、摘菜、切菜。把烂叶子扔掉,把泥巴洗干净,把土豆切成丝,肉切成片。对应到数据上,就是把那些错误的、重复的、格式乱七八糟的数据给清洗掉,统一成标准的格式。比如,把“男”和“M”统一成“1”,把时间格式都给对齐。处理完这层,数据就变得干净、整齐了,但还是一条一条最详细的记录,比如“张三在几点几分买了一瓶水”,清清楚楚。
菜洗干净切好了,总不能每次炒菜都从切配开始吧?太慢了。所以咱们得提前做一些汇总,这就到了服务层,也就是DWS。这一步就像是把切好的肉丝先滑炒一下,把配菜都配好,做成“半成品”。在数据世界里,就是把明细层那些海量的、一条条的记录,按照主题或者时间给汇总起来。比如,算出“张三这个月总共消费了多少钱”,或者“可乐这个星期卖了多少瓶”。这层数据就是为了方便后面快速查询,不用再每次都从最细的记录开始算,大大提升了效率。
最后,就是应用层,也就是ADS。这一步就是真正的大厨上场,把准备好的半成品下锅,调味,摆盘,变成一道色香味俱全的菜,直接端给客人吃。对应到数据上,就是给老板、运营或者客户看的最终报表、数据大屏或者APP里的排行榜。比如“年度销售战报”、“城市热力图”。这层的数据量不大,但都是精华,一目了然,直接就能用来做决策。
所以你看,从ODS到ADS,其实就是数据从“原材料”到“净菜”,再到“半成品”,最后变成“成品菜”的一个完整流水线。每一层都有它不可替代的作用,环环相扣,才能让数据这个“食材”发挥出最大的价值。
