如何自定义 UDF（User Defined Function）和 UDAF（User Defined Aggre...

知识点图片

自定义 UDF（User Defined Function）和 UDAF（User Defined Aggregate Function）通常是在大数据处理框架（如 Apache Hive、Apache Spark 或 Flink）中进行的。虽然不同框架的 API 略有不同，但核心思想是一致的。

以下我将以最主流的 Apache Hive（Java）和 Apache Spark（Scala/Python）为例，详细介绍如何定义和使用它们。

核心概念区别

UDF (User Defined Function):
- 输入输出关系: 1 进 1 出 (One-to-One)。
- 场景: 字符串处理（如转大写）、数值计算、日期格式化等。
- 类似 SQL: LOWER(), SUBSTR().
UDAF (User Defined Aggregate Function):
- 输入输出关系: 多进 1 出 (Many-to-One)。
- 场景: 统计总和、平均值、最大值等聚合操作。
- 类似 SQL: COUNT(), SUM(), AVG().

一、Apache Hive (基于 Java)

Hive 是定义 UDF/UDAF 的标准起源，很多 Spark 任务也会兼容 Hive 的 UDF。

1. 自定义 Hive UDF

步骤：继承 org.apache.hadoop.hive.ql.exec.UDF 类，并实现 evaluate 方法。

java

package com.example.hive;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

// 示例：给字符串添加 "Hello: " 前缀
public class HelloUDF extends UDF {
    
    // 方法名必须是 evaluate，支持重载
    public Text evaluate(Text input) {
        if (input == null) {
            return null;
        }
        return new Text("Hello: " + input.toString());
    }
}

2. 自定义 Hive UDAF

Hive 的 UDAF 比较复杂，通常需要继承 AbstractGenericUDAFResolver。核心逻辑分为四个阶段（Map-Reduce 思想）：

Iterate: 在 Map 阶段处理每一行数据。
TerminatePartial: Map 阶段结束，返回部分聚合结果。
Merge: 在 Reduce 阶段，合并来自不同 Map 的部分结果。
Terminate: Reduce 阶段结束，计算并返回最终结果。

(由于 Hive 原生 UDAF 代码冗长，这里仅描述逻辑，具体实现建议参考 Spark 的 Aggregator 或 Hive 官方文档)

3. 注册与使用 (Hive SQL)

编译成 JAR 包后，在 Hive CLI 中执行：

sql

-- 1. 添加 Jar 包
ADD JAR /path/to/my-udf.jar;

-- 2. 创建临时函数
CREATE TEMPORARY FUNCTION my_hello AS 'com.example.hive.HelloUDF';

-- 3. 使用
SELECT my_hello(name) FROM employee;

二、Apache Spark (Scala / Java / Python)

Spark 提供了更现代的 API，尤其是 PySpark 和 Spark SQL 的强类型聚合器。

1. Spark UDF (Python - PySpark)

这是最简单的方式，适合快速开发。

python

from pyspark.sql.functions import udf
from pyspark.sql.types import StringType

# 定义 Python 函数
def add_suffix_func(name):
    if name:
        return name + "_v2"
    return None

# 注册 UDF
# 方式 A: 用于 DataFrame API
suffix_udf = udf(add_suffix_func, StringType())
df.select(suffix_udf(df["name"])).show()

# 方式 B: 用于 Spark SQL
spark.udf.register("add_suffix", add_suffix_func, StringType())
spark.sql("SELECT add_suffix(name) FROM table").show()

2. Spark UDF (Scala)

plaintext

import org.apache.spark.sql.functions.udf

// 定义函数
val toUpper = (s: String) => if (s != null) s.toUpperCase else null

// 注册并使用
val toUpperUDF = udf(toUpper)
df.select(toUpperUDF($"name")).show()

// 注册到 SQL
spark.udf.register("to_upper", toUpper)

3. Spark UDAF (Scala - 推荐使用 Aggregator)

在 Spark 3.0+ 中，推荐继承 org.apache.spark.sql.expressions.Aggregator，它是强类型的，比旧版 UserDefinedAggregateFunction 更安全、性能更好。

示例：计算平均值 (Average)