千锋教育-做有情怀、有良心、有品质的职业教育机构

手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

首页 视频教程 培训课程 师资团队 技术干货 常见问题 面试题 职场就业 零基础学大数据 行业资讯
【热点话题】 大数据技术干货 大数据学习教程 大数据学习笔记 大数据面试题 大数据培训问答 大数据培训机构哪些好 大数据职场就业
当前位置:大数据培训  >  大数据学习笔记  >  设计一个实时的流式计算Wordcount

设计一个实时的流式计算Wordcount

来源:千锋教育
发布人:qyf
时间: 2022-12-07 20:54:49 1670417689

设计一个实时的流式计算Wordcount

  例如从kafka消费数据,使用sparkstream计算Wordcount,要求保证准确性,实时性,可用性,你要怎么实现?如果计算时突然宕机,怎么保证消费kafka数据不丢失,不重复?

  使用Kafka对接SparkStreaming计算,那么要保证数据不丢失,和不重复的话,要使用直连方式,并且保证一次性语义,手动管理Offset即可,那么在实现过程中,Offset一定不能丢,所以要手动管理,然后把它保存到其他存储位置即可,每次能拿到保存好的Offset就OK,同时如果Kafka突然宕机或者SparkStreaming宕机都不用担心,只要设置好一次性语义保存幂等数据不会丢,而且Offset在这次任务失败时候不会被提交,所以也不会更新,下次再次消费即可。

声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。

猜你喜欢LIKE

最新文章NEW

相关推荐HOT

更多>>