找出在 2025 年上半年（1-6月）累计消费金额超过 5000 元，但在下半年（7-12月）消费金额为 0 的“可能流失”的用户

SparkSQL 面试题：找出 2025 年“可能流失”的高价值用户题目背景在电商、新零售等行业中，识别高价值流失用户是精准营销的关键。本题要求从用户交易明细中，找出在 2025 年上半年（1-6月）累计消费金额超过 5000 元，但在下半年（7-12月）消费金额为 0（或无消费记录）的“可能流失”用户。 --- 一、示例数据 1. 用户表（） | userid (用户ID) | username (用户名) | registerdate (注册日期) | | :--- | :--- | :--- | | 101 | 张三 | 2024-05-01 | | 102 | 李四 | 2024-08-15 | | 103 | 王五 | 2025-01-10 | | 104 | 赵六 | 2025-02-20 | | 105 | 钱七 | 2025-03-01 | 2. 交易订单表（） | orderid (订单ID) | userid (用户ID) | orderdate (订单日期) | orderamount (订单金额) | | :--- | :--- | :--- | :...

找出在 2025 年上半年（1-6月）累计消费金额超过 5000 元，但在下半年（7-12月）消费金额为 0 的“...

SparkSQL 面试题：找出 2025 年“可能流失”的高价值用户

题目背景

在电商、新零售等行业中，识别高价值流失用户是精准营销的关键。本题要求从用户交易明细中，找出在 2025 年上半年（1-6月）累计消费金额超过 5000 元，但在下半年（7-12月）消费金额为 0（或无消费记录）的“可能流失”用户。

一、示例数据

1. 用户表（`users`）

user_id (用户ID)	user_name (用户名)	register_date (注册日期)
101	张三	2024-05-01
102	李四	2024-08-15
103	王五	2025-01-10
104	赵六	2025-02-20
105	钱七	2025-03-01

2. 交易订单表（`orders`）

order_id (订单ID)	user_id (用户ID)	order_date (订单日期)	order_amount (订单金额)
o001	101	2025-01-15	3000.00
o002	101	2025-04-10	2500.00
o003	101	2025-08-20	500.00
o004	102	2025-02-18	6000.00
o005	103	2025-03-05	1500.00
o006	103	2025-05-20	4000.00
o007	104	2025-01-10	800.00
o008	105	2025-06-01	5500.00
o009	105	2025-11-12	0.00

预期输出结果

user_id (用户ID)	user_name (用户名)	h1_amount (上半年消费)	h2_amount (下半年消费)
103	王五	5500.00	0.00
105	钱七	5500.00	0.00

注：

张三 (101)：上半年消费 5500，但下半年消费了 500，不符合“下半年消费为0”的条件。
李四 (102)：上半年消费 6000，下半年无订单，但未与用户表关联时容易遗漏，正确SQL应包含其个人信息（若要求输出用户名）。
王五 (103)：上半年消费 1500 + 4000 = 5500 > 5000，下半年无订单，符合条件。
赵六 (104)：上半年仅消费 800，不满足 > 5000 条件。
钱七 (105)：上半年消费 5500 > 5000，下半年有一笔 0 元订单（或无订单），符合条件。

二、 SparkSQL 面试题答案

解法一：条件聚合（Conditional Aggregation）—— 推荐解法（最高效）

利用 CASE WHEN 配合 SUM 进行条件聚合，一次扫描表即可完成数据分组与筛选，性能最优。

sql

SELECT 
    u.user_id,
    u.user_name,
    t.h1_amount,
    COALESCE(t.h2_amount, 0.00) AS h2_amount
FROM users u
JOIN (
    SELECT 
        user_id,
        SUM(CASE WHEN order_date >= '2025-01-01' AND order_date <= '2025-06-30' THEN order_amount ELSE 0 END) AS h1_amount,
        SUM(CASE WHEN order_date >= '2025-07-01' AND order_date <= '2025-12-31' THEN order_amount ELSE 0 END) AS h2_amount
    FROM orders
    WHERE order_date BETWEEN '2025-01-01' AND '2025-12-31'
    GROUP BY user_id
) t ON u.user_id = t.user_id
WHERE t.h1_amount > 5000 
  AND (t.h2_amount IS NULL OR t.h2_amount = 0);

解法二：LEFT JOIN 差集法 —— 思路最直观

分别计算出上半年和下半年的消费汇总表，然后通过 LEFT JOIN 进行关联排除。

sql

WITH h1_sales AS (
    SELECT user_id, SUM(order_amount) AS h1_amount
    FROM orders
    WHERE order_date >= '2025-01-01' AND order_date <= '2025-06-30'
    GROUP BY user_id
    HAVING SUM(order_amount) > 5000
),
h2_sales AS (
    SELECT user_id, SUM(order_amount) AS h2_amount
    FROM orders
    WHERE order_date >= '2025-07-01' AND order_date <= '2025-12-31'
    GROUP BY user_id
    HAVING SUM(order_amount) > 0
)
SELECT 
    u.user_id,
    u.user_name,
    h1.h1_amount,
    0.00 AS h2_amount
FROM h1_sales h1
INNER JOIN users u ON h1.user_id = u.user_id
LEFT JOIN h2_sales h2 ON h1.user_id = h2.user_id
WHERE h2.user_id IS NULL;

三、 SparkSQL 深度分析与面试加分项

在面试中，仅仅写出 SQL 是不够的，能够针对 SparkSQL 的执行机制、性能优化进行剖析，才能拿到高薪 Offer。以下是针对本题的深度技术分析：

1. 为什么“解法一（条件聚合）”性能远优于“解法二”？

减少 Shuffle 阶段：
- 解法二（LEFT JOIN 差集）需要对 orders 表进行两次分组聚合（产生两次 Stage 划分和两次 Shuffle Write/Read），最后还要做一次 JOIN 关联（再次产生 Shuffle）。
- 解法一（条件聚合）只需要对 orders 表进行一次过滤和一次 GROUP BY。在 Spark 引擎中，这只会触发一次 Shuffle 过程，大大减少了磁盘 I/O 和网络传输。
扫描次数：解法一通过 WHERE order_date BETWEEN... 限定了全年的数据范围，只对 orders 表做了一次全表/分区扫描；而解法二扫描了两次表。

2. SparkSQL 执行计划与优化（Catalyst Optimizer）

在向面试官解释时，可以提到 SparkSQL 的 Catalyst 优化器是如何处理该查询的：

谓词下推（Predicate Pushdown）：Spark 会优先将 order_date BETWEEN '2025-01-01' AND '2025-12-31' 的过滤条件推送到数据源端。如果是 Parquet 或 ORC 格式，能直接利用列式存储的 Metadata 进行 Row Group 过滤，甚至避免读取无关的文件块。
常量折叠与 Projection 剪枝：不需要的列（如非统计维度的其他订单属性）在读取时会被直接忽略，减少内存占用。

3. 数据倾斜（Data Skew）应对策略

如果 orders 表非常庞大（TB级），且某些大促期间或某些头部渠道的用户产生海量订单，GROUP BY user_id 可能会导致数据倾斜（某些 Task 处理的数据量远大于其他 Task）。

解决方案（两阶段聚合）：
- 先对 user_id 加随机前缀进行局部聚合：GROUP BY user_id, floor(rand() * 10)
- 去掉前缀进行全局聚合。
广播连接（Broadcast Hash Join, BHJ）：
- 由于 users 表（用户维表）通常相对较小，而计算后的流失用户结果集也很小。在最后与 users 表关联时，Spark 会默认（或通过 /*+ BROADCAST(u) */ Hint 提示）将维表广播到各个 Executor，从而避免了大表之间的 Shuffle Hash Join，将 JOIN 转化为本地 Map 端连接。

4. 边界漏洞防范（Null 值处理）

面试官非常看重候选人对边界情况的严谨度：

0元订单与无订单：下半年“无消费”有两种可能：
1. 下半年完全没有订单记录（LEFT JOIN 结果为 NULL）。
2. 下半年有订单但金额为 0（如积分兑换、退款单，SUM 结果为 0）。
防御性代码：在解法一中，使用 (t.h2_amount IS NULL OR t.h2_amount = 0) 来同时兼容这两种情况；并使用 COALESCE(t.h2_amount, 0.00) 保证报表输出的友好性。

播面

找出在 2025 年上半年（1-6月）累计消费金额超过 5000 元，但在下半年（7-12月）消费金额为 0 的“可能流失”的用户

SparkSQL 面试题：找出 2025 年“可能流失”的高价值用户

题目背景

一、示例数据

1. 用户表（`users`）

2. 交易订单表（`orders`）

预期输出结果

二、 SparkSQL 面试题答案

解法一：条件聚合（Conditional Aggregation）—— 推荐解法（最高效）

解法二：LEFT JOIN 差集法 —— 思路最直观

三、 SparkSQL 深度分析与面试加分项

1. 为什么“解法一（条件聚合）”性能远优于“解法二”？

2. SparkSQL 执行计划与优化（Catalyst Optimizer）

3. 数据倾斜（Data Skew）应对策略

4. 边界漏洞防范（Null 值处理）

你好！我是 Bomian 助手

找出在 2025 年上半年（1-6月）累计消费金额超过 5000 元，但在下半年（7-12月）消费金额为 0 的“可能流失”的用户

SparkSQL 面试题：找出 2025 年“可能流失”的高价值用户

题目背景

一、 示例数据

1. 用户表（users）

2. 交易订单表（orders）

预期输出结果

二、 SparkSQL 面试题答案

解法一：条件聚合（Conditional Aggregation）—— 推荐解法（最高效）

解法二：LEFT JOIN 差集法 —— 思路最直观

三、 SparkSQL 深度分析与面试加分项

1. 为什么“解法一（条件聚合）”性能远优于“解法二”？

2. SparkSQL 执行计划与优化（Catalyst Optimizer）

3. 数据倾斜（Data Skew）应对策略

4. 边界漏洞防范（Null 值处理）

你好！我是 Bomian 助手

一、示例数据

1. 用户表（`users`）

2. 交易订单表（`orders`）