hive自定义函数的那点事
经常有学习大数据的小伙伴问小千,hive应该如何去自定义函数?小千今天就来给大家分享一下hive自定义函数的教程,继续往下看。
一、自定义函数
1 为什么需要自定义函数
hive的内置函数满足不了所有的业务需求。
hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。
2 常见自定义函数有哪些
UDF:用户自定义函数,user defined function。一对一的输入输出。(最常用的)。
UDTF:用户自定义表生成函数。user defined table-generate function.一对多的输入输出。lateral view explode
UDAF:用户自定义聚合函数。user defined aggregate function。多对一的输入输出 count sum max。
二、自定义函数实现
1 UDF格式
先在工程下新建一个pom.xml,加入以下maven的依赖包 请查看code/pom.xml
定义UDF函数要注意下面几点:
继承org.apache.hadoop.hive.ql.exec.UDF
重写evaluate(),这个方法不是由接口定义的,因为它可接受的参数的个数,数据类型都是不确定的。Hive会检查UDF,看能否找到和函数调用相匹配的evaluate()方法
1.1 自定义函数第一个案例
2 函数加载方式
2.1 命令加载
这种加载只对本session有效
# 1、将编写的udf的jar包上传到服务器上,并且将jar包添加到hive的class path中
# 进入到hive客户端,执行下面命令
add jar /hivedata/udf.jar
# 2、创建一个临时函数名,要跟上面hive在同一个session里面:
create temporary function toUP as 'com.qf.hive.FirstUDF';
3、检查函数是否创建成功
show functions;
4. 测试功能
select toUp('abcdef');
5. 删除函数
drop temporary function if exists tolow;
2.2 启动参数加载
(也是在本session有效,临时函数)
2.3 配置文件加载
通过配置文件方式这种只要用hive命令行启动都会加载函数
3 UDTF格式
UDTF是一对多的输入输出,实现UDTF需要完成下面步骤
继承org.apache.hadoop.hive.ql.udf.generic.GenericUDF,
重写initlizer()、getdisplay()、evaluate()。
执行流程如下:
UDTF首先会调用initialize方法,此方法返回UDTF的返回行的信息(返回个数,类型)。
初始化完成后,会调用process方法,真正的处理过程在process函数中,在process中,每一次forward()调用产生一行;如果产生多列可以将多个列的值放在一个数组中,然后将该数组传入到forward()函数。
最后close()方法调用,对需要清理的方法进行清理。
3.1 需求:
把"k1:v1;k2:v2;k3:v3"类似的的字符串解析成每一行多行,每一行按照key:value格式输出
3.2 源码
自定义函数如下:
3.3 打包加载
对上述命令源文件打包为udf.jar,拷贝到服务器的/hivedata/目录
在Hive客户端把udf.jar加入到hive中,如下:
add jar /hivedata/udf.jar;
3.4 创建临时函数:
在Hive客户端创建函数:
3.5 测试临时函数
select parseMap("name:zhang;age:30;address:shenzhen")
结果如下:
4 UDAF格式
用户自定义聚合函数。user defined aggregate function。多对一的输入输出 count sum max。定义一个UDAF需要如下步骤:
UDF自定义函数必须是org.apache.hadoop.hive.ql.exec.UDAF的子类,并且包含一个火哥多个嵌套的的实现了org.apache.hadoop.hive.ql.exec.UDAFEvaluator的静态类。
函数类需要继承UDAF类,内部类Evaluator实UDAFEvaluator接口。
Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函
这几个函数作用如下:
函数说明init实现接口UDAFEvaluator的init函数iterate每次对一个新值进行聚集计算都会调用,计算函数要根据计算的结果更新其内部状态terminatePartial无参数,其为iterate函数轮转结束后,返回轮转数据merge接收terminatePartial的返回结果,进行数据merge操作,其返回类型为boolean。terminate返回最终的聚集函数结果。
4.1 需求
计算一组整数的最大值
4.2 代码
4.3 打包加载
对上述命令源文件打包为udf.jar,拷贝到服务器的/hivedata/目录
在Hive客户端把udf.jar加入到hive中,如下:
add jar /hivedata/udf.jar;
4.4 创建临时函数:
在Hive客户端创建函数:
3.5 测试临时函数
select maxInt(mgr) from emp
结果如下:
最后欢迎大家添加我们的大数据技术分享交流qq群:857910996 加群找群管理免费领取大数据学习资料和项目源码,赶紧来等你哦~~~~

猜你喜欢LIKE
相关推荐HOT
更多>>
无重复字符的最长子串
题目描述:给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。示例 1: 输入: "abcabcbb" 输出: 3解释: 因为无重复字符的最长子串...详情>>
2022-10-11 14:52:00
如何自定义累加器
spark提供了一个累加器用于在整个流程中额外执行一个MR任务,它可以在driver端被初始化发送给各个Task,然后在每个Task中为它添加数据,最终经...详情>>
2022-09-30 15:17:00
如何写数据
1. 客户端从zk中获取meta表位置,到对应regionServer上获取该表,或直接从缓存中读取该表。 2. 客户端从meta表中获取要写的数据存放的region和...详情>>
2022-09-26 11:24:00
spark作业的最大并行度
spark作业的最大并行度=excutor个数*每个excutor的cpu core数 但spark的当前并行度取决于task数,而task数=分区数。详情>>
2022-09-23 16:29:00
kafka的topic,partition,replica,message的理解
如果配置为2,表示除了leader节点,对于topic里的每一个partition,都会有一个额外的备份。message:实际写入Kafka中并可以被读取的消息记录。每...详情>>
2022-09-20 16:59:00大数据培训问答更多>>
新大数据适合女生学吗?
新哪家大数据分析培训班好
新大数据培训班需要多少钱?怎么挑选大数据培训班
新大数据培训班需要多少钱?大数据就业方向有哪些
新大数据培训班靠谱吗?大数据发展前景怎么样
新大数据分析培训哪里好
新大数据培训学费多少?课程内容是什么
大数据面试题库 更多>>
大数据的五个V是什么?
数据及集群管理(三)
数据及集群管理(二)
数据及集群管理(一)
大数据之hbase的优化读数据方面
大数据之hbase的优化写入数据方面
开班信息
北京校区
- 北京校区
- 大连校区
- 广州校区
- 成都校区
- 杭州校区
- 长沙校区
- 合肥校区
- 南京校区
- 上海校区
- 深圳校区
- 武汉校区
- 郑州校区
- 西安校区
- 青岛校区
- 重庆校区
- 太原校区
- 沈阳校区
- 北京校区
- 大连校区
- 广州校区
- 成都校区
- 杭州校区
- 长沙校区
- 合肥校区
- 南京校区
- 上海校区
- 深圳校区
- 武汉校区
- 郑州校区
- 西安校区
- 青岛校区
- 重庆校区
- 太原校区
- 沈阳校区
