找回密码
 立即注册
查看: 62|回复: 0

数据词典:Flume

[复制链接]

108

主题

1

回帖

478

积分

管理员

积分
478
发表于 2025-10-30 09:13:54 | 显示全部楼层 |阅读模式
FlumeCloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume 运行的核心是AgentFlumeAgent为最小的独立运行单位,一个Agent就是一个JVMJava Virtual Machine),它是一个完整的数据采集工具,包含三个核心组件,分别是数据源(Source)、数据通道(Channel)和数据槽(Sink)。通过这些组件,“事件”可以从一个地方流向另一个地方。每个组件的具体功能如下:
1)数据源是数据的收集端,负责将数据捕获后进行特殊的格式化,将数据封装到事件(Event)里,然后将事件推入数据通道中。常用的数据源的类型包括AvroThriftExecJMSSpooling DirectoryTaildirKafkaNetCatSyslogHTTP等。
2)数据通道是连接数据源和数据槽的组件,可以将它看作一个数据的缓冲区(数据队列),它可以将事件暂存到内存中,也可以持久化到本地磁盘上,直到数据槽处理完该事件。常用的数据通道类型包括MemoryJDBCKafkaFileCustom等。
3)数据槽取出数据通道中的数据,存储到文件系统和数据库,或者提交到远程服务器。常用的数据槽包括HDFSHiveLoggerAvroThriftIRCFile RollHBaseElasticSearchKafkaHTTP等。
Flume提供了大量内置的数据源、数据通道和数据槽类型。不同类型的数据源、数据通道和数据槽可以自由组合。组合方式基于用户设置的配置文件,非常灵活。比如,数据通道可以把事件暂存在内存里,也可以持久化到本地硬盘上;数据槽可以把日志写入HDFSHBase甚至是另外一个数据源等等。
【出处】林子雨.大数据导论.人民邮电出版社,20209月第1.

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2025-11-18 05:24 , Processed in 0.094943 second(s), 21 queries .

版权所有: 全数联人才测评(北京)中心

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能专员认证中心

快速回复 返回顶部 返回列表