通用的企业级数据仓(Data Warehouse)通常采用 “四层架构”(也有分为三层或五层的变体,但核心逻辑一致)。这种分层设计的目的是为了解耦、减少重复计算、保证数据口径一致性以及便于数据追溯。 以下是业界最通用的分层架构详解: --- 1. ODS 层 (Operational Data Store) —— 源数据层/贴源层 定义:这是数据进入数仓的第一层,数据结构与业务系统(如 MySQL 业务库、埋点日志)基本保持一致。 主要工作: 同步:将业务数据库的数据(全量或增量)和日志数据同步到数仓(如 Hive/HDFS/S3)。 备份:起到数据备份的作用,防止业务库数据丢失。 分区:通常按日期(Day)进行分区存储。 特点: “原汁原味”:不做清洗,或者只做最基础的格式转换(如 JSON 解析)。 数据量大:保留历史所有数据。 表命名示例: (df代表日全量), (inc代表增量) 2. DW 层 (Data Warehouse) —— 数仓层(核心层) 这一层是数仓的核心,通常会进一步细分为 DWD 和 DWS(有时中间还会加一个 DWM 层)。 2.1 DIM 层 (D...