|
时序数据是指时间序列数据,它是按时间顺序记录的数据列,在同一个数据列中的各个数据必须是同口径的,要求具有可比性。 在工业企业中,实时数据是时序数据的一种,如设备运行监测类数据、安全类监测数据、环境监测类数据。工业领域的时序数据具有鲜明的特点: 1.数据是时序的,一定带有时间戳。联网的设备按照设定的周期,或受外部事件的触发,会源源不断地产生数据。每个数据点是在哪个时间点产生的,这对于数据的计算和分析十分重要,必须要记录。 2.数据是结构化的。微博、微信中的海量数据都是非结构化的,其中包括文字、图片、视频等。但物联网设备产生的数据往往是结构化的,而且是数值型的,比如智能电表采集的电流、电压数据就可以用4字节的标准的浮点数来表示。 3.数据极少有更新操作。物联网设备产生的数据是机器日志数据,一般不允许修改而且也没有修改的必要。很少有场景需要对采集的原始数据进行修改。但在一个典型的信息化或互联网应用中,其中记录的数据是一定可以被修改或删除的。 4.数据源是唯一的。一个物联网设备采集的数据与另外一个设备采集的数据是完全独立的。一台设备中的数据一定是这台设备产生的,不可能是人工或其他设备产生的,即一台设备中的数据只有一个生产者,数据源是唯一的。 5.相对互联网应用,写多读少。对于互联网应用,一条数据记录往往是一次写,多次读。比如一条微博内容或一篇微信公众号文章,都是一次写,可能会有上百万人读。但物联网设备产生的数据不一样,一般是计算、分析程序自动读,而且计算、分析的次数不多,只有在分析事故等场景中才会有人主动看原始数据。 6.用户关注的是一段时间的趋势。对于一条银行记录,或者一条微博内容,对其用户而言,每一条都很重要。但对于物联网数据,每个数据点与数据点的变化并不大,一般是渐变的,大家更关心的是一段时间(比如过去5分钟、过去1小时)内数据的变化趋势,一般对某一特定时间点的数据值并不关注。 7.数据是有保留期限的。采集的数据一般都有基于时长的保留策略,比如仅仅保留一天、一周、一个月、一年,甚至更长时间,为节省存储空间,系统最好能自动删除过期数据。 8.数据的查询和分析往往是基于时间段和某一组设备的。对于物联网数据,在做计算和分析时,一定会指定时间范围,不会只针对一个时间点或者整个历史进行。而且往往需要根据分析的维度,对物联网设备的一个子集采集的数据进行分析,比如某个地理区域的设备,某个型号、某个批次的设备,某个厂商的设备等。 9.除存储查询外,往往需要实时分析计算操作。对于大部分互联网的大数据应用,更多是离线分析,即使有实时分析,要求也不高。比如用户画像,可以在积累一定的用户行为数据后进行分析。但是对于物联网应用,对数据的实时计算要求往往很高,因为需要根据计算结果进行实时报警,以避免事故的发生。 10.流量平稳、可预测。给定了物联网数量、数据采集频次,就可以较为准确地估算出所需要的带宽和流量、每天新生成的数据大小。 11.数据处理具有特殊性。与典型的互联网相比,还有不一样的数据处理需求。比如要检查某个具体时间的设备采集的某个量,但传感器实际采集的时间不是这个时间点,这时往往需要做插值处理。还有很多场景需要基于采集量进行复杂的数学函数计算。 12.数据量巨大。以智能电表为例,一台智能电表每隔15分钟采集一次数据,每天自动生成96条记录。全国有接近5亿台智能电表,每天生成近500亿条记录。一辆联网的汽车每隔10~15秒就采集一次数据并发送到云端,一辆汽车一天内就能产生近6000条记录。如果有2亿辆汽车全部联网,那么每天将产生12000亿条记录。5年之内,物联网设备产生的数据将占世界总数据量的90%以上。 时序数据是典型的流式数据,就像视频流,而且单个数据点的价值很低,甚至丢失一小段时间的数据也不影响分析的结论即系统的正常运行。但看似简单的事情,由于数据记录条数巨大,导致数据的实时写入成为瓶颈,查询分析极为缓慢,成为新的技术挑战。传统的关系数据库、NoSQL数据库及流式计算引擎,由于没有充分利用物联网数据的特点,性能提升极为有限,只能依靠集群技术,投入更多的计算资源和存储资源来处理,使得系统的运营维护成本急剧上升。 【出处】祝守宇,蔡春久 等著.数据治理——工业企业数字化转型之道.电子工业出版社,2020年11月第1版.
|