|
流计算平台实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息。总的来说,流计算秉承一个基本理念,即数据的价值随着时间的流逝而降低。因此,当事件出现时就应该立即进行处理,而不是缓存起来进行批量处理。为了及时处理流数据,就需要一个低延迟、可扩展、高可靠的处理引擎。对于一个流计算系统来说,它应达到如下需求: 1.高性能。处理大数据的基本要求,如每秒处理几十万条数据。 2.海量式。支持TB级甚至是PB级的数据规模。 3.实时性。必须保证一个较低的延迟时间,达到秒级别,甚至是毫秒级别。 4.分布式。支持大数据的基本架构,必须能够平滑扩展。 5.易用性。能够快速进行开发和部署。 6.可靠性。能可靠地处理流数据。 针对不同的应用场景,相应的流计算系统会有不同的需求,但是针对海量数据的流计算,无论在数据采集、数据处理中都应达到秒级别的要求。 流计算处理过程包括数据实时采集、数据实时计算和实时查询服务,具体如下: 1.数据实时采集。数据实时采集阶段通常采集多个数据源的海量数据,需要保证实时性、低延迟与稳定可靠。以日志数据为例,由于分布式集群的广泛应用,数据分散存储在不同的机器上,因此需要实时汇总来自不同机器上的日志数据。目前有许多互联网公司发布的开源分布式日志采集系统均可满足每秒数百MB的数据采集和传输需求,如Facebook的Scribe、LinkedIn的Kafka、淘宝的TimeTunnel,以及基于Hadoop的Chukwa和Flume等。 2.数据实时计算。数据实时计算阶段对采集的数据进行实时的分析和计算。在一个典型的数据实时计算流程中,流处理系统接收数据采集系统不断发来的实时数据,实时地进行分析计算,并反馈实时结果。经流处理系统处理后的数据,可视情况进行存储,以便之后再进行分析计算。在时效性要求较高的场景中,处理之后的数据也可以直接丢弃。 3.实时查询服务。流计算的第三个阶段是实时查询服务,经由流计算框架得出的结果可供用户进行实时查询、展示或储存。传统的数据处理流程,用户需要主动发出查询才能获得想要的结果。而在流处理流程中,实时查询服务可以不断更新结果,并将用户所需的结果实时推送给用户。虽然通过对传统的数据处理系统进行定时查询也可以实现不断更新结果和结果推送,但通过这样的方式获取的结果仍然是根据过去某一时刻的数据得到的结果,与实时结果有着本质的区别。 【出处】林子雨.大数据导论.人民邮电出版社,2020年9月第1版.
|