找回密码
 立即注册
查看: 37|回复: 0

数据词典:Impala

[复制链接]

656

主题

70

回帖

2291

积分

管理员

积分
2291
发表于 2025-11-7 13:38:52 | 显示全部楼层 |阅读模式
Hive作为比较流行的数据仓库分析工具之一,得到了广泛的应用,但是,由于Hive在采用MapReduce执行引擎时,是使用MapReduce来完成批量数据处理,而MapReduce是一个面向批处理的非实时计算框架,因此,实时性不好,查询延迟较高,不能满足查询的实时交互性。Impala作为开源大数据分析引擎,支持实时计算,它提供了与Hive类似的功能,并在性能上比Hive高出3~30倍。
Impala是由Cloudera公司开发的查询系统,它提供了SQL语义,能查询存储在Hadoop的HDFS和HBase上的PB级别海量数据。Impala最初是参照Dremel系统进行设计的,Dremel系统是由Google公司开发的交互式数据分析系统,可以在2-3秒内分析PB级别的海量数据。所以,Impala也可以实现大数据的快速查询。
需要指出的是,虽然Impala的实时查询性能要比Hive好很多,但是,Impala的目的并不在于替换现有的包括Hive在内的MapReduce工具,而是提供一个统一的平台用于实时查询。事实上,Impala的运行依然需要依赖于Hive的元数据。
Hive类似,Impala也可以直接与HDFS和HBase进行交互。当采用MapReduce 作为执行引擎时,Hive底层执行使用的是MapReduce,所以主要用于处理长时间运行的批处理任务,例如批量提取、转化、加载类型的任务。而Impala则采用了与商用MPP并行关系数据库类似的分布式查询引擎,可以直接从HDFS或者HBase中用SQL语句查询数据,而不需要把SQL语句转化成MapReduce任务来执行,从而大大降低了延迟,可以很好地满足实时查询的要求。另外,Impala和Hive采用相同的SQL语法、ODBC驱动程序和用户接口。
【出处】林子雨.大数据导论.人民邮电出版社,2020年9月第1版.

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2025-11-18 05:15 , Processed in 0.091738 second(s), 20 queries .

版权所有: 全数联人才测评(北京)中心

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能专员认证中心

快速回复 返回顶部 返回列表