找回密码
 立即注册
查看: 70|回复: 0

数据词典:数据采集(Data Collection)

[复制链接]

108

主题

1

回帖

478

积分

管理员

积分
478
发表于 2025-10-29 07:34:20 | 显示全部楼层 |阅读模式
数据采集又称数据获取,是数据分析的入口,数据分析过程中相当重要的一个环节,它通过各种技术手段把外部各种数据源产生的数据实时或非实时地采集并加以利用。在数据大爆炸的互联网时代,被采集的数据的类型也是复杂多样的,包括结构化数据、半结构化数据、非结构化数据。结构化数据最常见,就是保存在关系数据库中的数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,包括所有格式的传感器数据、办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
数据采集的三大要点包括:
1全面性。全面性是指数据量足够具有分析价值、数据面足够支撑分析需求。比如对于“查看商品详情”这一行为,需要采集用户触发时的环境信息、会话以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。
2多维性。数据更重要的是能满足分析需求。必须能够灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。比如“查看商品详情”这一行为,通过“埋点”,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性,从而知道用户看过哪些商品、什么类型的商品被查看得多、某一个商品被查看了多少次,而不仅仅是知道用户进入了商品详情页。
3高效性。高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。也就是说采集数据一定要明确采集目的,带着问题搜集信息,使信息采集更高效、更有针对性。此外,还要考虑数据的及时性。
  数据采集的主要数据源包括传感器数据、互联网数据、日志文件、企业业务系统数据等,具体如下:
1)传感器数据。传感器是一种检测装置,能感受到被测量的信息,并能将感受到的信息,按一定规律变换成为电信号或其他所需形式的信息输出,以满足信息的传输、处理、存储、显示、记录和控制等要求。在工作现场,我们会安装很多的各种类型的传感器,如压力传感器、温度传感器、流量传感器、声音传感器、电参数传感器等等。传感器对环境的适应能力很强,可以应对各种恶劣的工作环境。在日常生活中,如温度计、麦克风、DV录像、手机拍照功能等都属于传感器数据采集的一部分,支持图片、音频、视频等文件或附件的采集工作。
2)互联网数据。互联网数据的采集通常是借助于网络爬虫来完成的。所谓“网络爬虫”,就是一个在网上到处或定向抓取网页数据的程序。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面中会包含指向其他页面的URL,于是从当前页面获取到这些网址加入到爬虫的抓取队列中,然后进入到新页面后再递归地进行上述的操作。爬虫数据采集方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
3日志文件。许多公司的业务平台每天都会产生大量的日志文件。日志文件数据一般由数据源系统产生,用于记录针对数据源执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和Web服务器记录的用户访问行为。对于这些日志信息,我们可以得到很多有价值的数据。通过对这些日志信息进行采集,然后进行数据分析,就可以从公司业务平台日志数据中挖掘得到具有潜在价值的信息,为公司决策和公司后台服务器平台性能评估提供可靠的数据保证。系统日志采集系统做的事情就是收集日志数据提供离线和在线的实时分析使用。
4)企业业务系统数据。一些企业会使用传统的关系型数据库MySQLOracle等来存储业务系统数据,除此之外,RedisMongoDB这样的NoSQL数据库也常用于数据的存储。企业每时每刻产生的业务数据,以数据库一行记录形式被直接写入到数据库中。企业可以借助于ETLExtract-Transform-Load)工具,把分散在企业不同位置的业务系统的数据,抽取、转换、加载到企业数据仓库中,以供后续的商务智能分析使用。通过采集不同业务系统的数据并统一保存到一个数据仓库中,就可以为分散在企业不同地方的商务数据提供一个统一的视图,满足企业的各种商务决策分析需求。在采集企业业务系统数据时,由于采集的数据种类错综复杂,对于不同种类型的数据,在进行数据分析之前,必须通过数据抽取技术,将复杂格式的数据进行数据抽取,从数据原始格式中抽取出我们需要的数据,这里可以丢弃一些不重要的字段。对于数据抽取得到的数据,由于数据源头的采集可能存在不准确的情况,所以,必须进行数据清洗(预处理),对于那些不正确的数据进行过滤、剔除。针对不同的应用场景,对数据进行分析的工具或者系统不同,我们还需要对数据进行数据转换操作,将数据转换成不同的数据格式,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
【出处】林子雨.大数据导论.人民邮电出版社,20209月第1.

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2025-11-18 06:45 , Processed in 0.096455 second(s), 20 queries .

版权所有: 全数联人才测评(北京)中心

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能专员认证中心

快速回复 返回顶部 返回列表