千锋教育-做有情怀、有良心、有品质的职业教育机构

手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

首页 视频教程 培训课程 师资团队 技术干货 常见问题 面试题 职场就业 零基础学大数据 行业资讯
【热点话题】 大数据技术干货 大数据学习教程 大数据学习笔记 大数据面试题 大数据培训问答 大数据培训机构哪些好 大数据职场就业
当前位置:大数据培训  >  大数据技术干货  >  hive自定义函数的那点事

hive自定义函数的那点事

来源:千锋教育
发布人:小千
时间: 2021-01-07 10:44:00 1609987440

经常有学习大数据的小伙伴问小千,hive应该如何去自定义函数?小千今天就来给大家分享一下hive自定义函数的教程,继续往下看。

一、自定义函数

1 为什么需要自定义函数

hive的内置函数满足不了所有的业务需求。

hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。

2 常见自定义函数有哪些

 

UDF:用户自定义函数,user defined function。一对一的输入输出。(最常用的)。

UDTF:用户自定义表生成函数。user defined table-generate function.一对多的输入输出。lateral view explode

UDAF:用户自定义聚合函数。user defined aggregate function。多对一的输入输出 count sum max。

二、自定义函数实现

1 UDF格式

先在工程下新建一个pom.xml,加入以下maven的依赖包 请查看code/pom.xml

定义UDF函数要注意下面几点:

继承org.apache.hadoop.hive.ql.exec.UDF

重写evaluate(),这个方法不是由接口定义的,因为它可接受的参数的个数,数据类型都是不确定的。Hive会检查UDF,看能否找到和函数调用相匹配的evaluate()方法

1.1 自定义函数第一个案例

1

2 函数加载方式

2.1 命令加载

这种加载只对本session有效

# 1、将编写的udf的jar包上传到服务器上,并且将jar包添加到hive的class path中

# 进入到hive客户端,执行下面命令

add jar /hivedata/udf.jar

# 2、创建一个临时函数名,要跟上面hive在同一个session里面:

create temporary function toUP as 'com.qf.hive.FirstUDF';

3、检查函数是否创建成功

show functions;

4. 测试功能

select toUp('abcdef');

5. 删除函数

drop temporary function if exists tolow;

2.2 启动参数加载

(也是在本session有效,临时函数)

2

2.3 配置文件加载

通过配置文件方式这种只要用hive命令行启动都会加载函数

3

3 UDTF格式

UDTF是一对多的输入输出,实现UDTF需要完成下面步骤

继承org.apache.hadoop.hive.ql.udf.generic.GenericUDF,

重写initlizer()、getdisplay()、evaluate()。

执行流程如下:

UDTF首先会调用initialize方法,此方法返回UDTF的返回行的信息(返回个数,类型)。

初始化完成后,会调用process方法,真正的处理过程在process函数中,在process中,每一次forward()调用产生一行;如果产生多列可以将多个列的值放在一个数组中,然后将该数组传入到forward()函数。

最后close()方法调用,对需要清理的方法进行清理。

3.1 需求:

把"k1:v1;k2:v2;k3:v3"类似的的字符串解析成每一行多行,每一行按照key:value格式输出

3.2 源码

自定义函数如下:

4

3.3 打包加载

对上述命令源文件打包为udf.jar,拷贝到服务器的/hivedata/目录

在Hive客户端把udf.jar加入到hive中,如下:

add jar /hivedata/udf.jar;

3.4 创建临时函数:

在Hive客户端创建函数:

5

3.5 测试临时函数

select parseMap("name:zhang;age:30;address:shenzhen")

结果如下:

6

4 UDAF格式

用户自定义聚合函数。user defined aggregate function。多对一的输入输出 count sum max。定义一个UDAF需要如下步骤:

UDF自定义函数必须是org.apache.hadoop.hive.ql.exec.UDAF的子类,并且包含一个火哥多个嵌套的的实现了org.apache.hadoop.hive.ql.exec.UDAFEvaluator的静态类。

函数类需要继承UDAF类,内部类Evaluator实UDAFEvaluator接口。

Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函

这几个函数作用如下:

函数说明init实现接口UDAFEvaluator的init函数iterate每次对一个新值进行聚集计算都会调用,计算函数要根据计算的结果更新其内部状态terminatePartial无参数,其为iterate函数轮转结束后,返回轮转数据merge接收terminatePartial的返回结果,进行数据merge操作,其返回类型为boolean。terminate返回最终的聚集函数结果。

4.1 需求

计算一组整数的最大值

4.2 代码

7

4.3 打包加载

对上述命令源文件打包为udf.jar,拷贝到服务器的/hivedata/目录

在Hive客户端把udf.jar加入到hive中,如下:

add jar /hivedata/udf.jar;

4.4 创建临时函数:

在Hive客户端创建函数:

8

3.5 测试临时函数

select maxInt(mgr) from emp

结果如下:

9

最后欢迎大家添加我们的大数据技术分享交流qq群:857910996  加群找群管理免费领取大数据学习资料和项目源码,赶紧来等你哦~~~~

声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。

猜你喜欢LIKE

最新文章NEW

相关推荐HOT

更多>>