找回密码
 立即注册
查看: 41|回复: 0

数据词典:Web数据挖掘(Web Data Mining)

[复制链接]

1231

主题

74

回帖

4110

积分

管理员

积分
4110
发表于 2025-11-24 18:50:15 | 显示全部楼层 |阅读模式
Web数据挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。虽然Web数据挖掘使用了许多数据挖掘技术,但是它并不仅仅是传统数据挖掘的一个简单应用。在过去20多年中,许多新的挖掘任务和算法被相继发明。依据在发掘过程中使用的数据类别,Web数据挖掘任务可以被划分为三种主要类型:Web结构挖掘、Web内容挖掘和Web使用挖掘,具体如下:
1.Web结构挖掘。Web结构挖掘从表征Web结构的超链接中寻找有用的知识。例如,从这些链接中,我们可以找出哪些是重要的网页,这是一项搜索引擎采用的重要技术。我们也可以发掘具有共同兴趣的用户社区。这些任务在传统的数据挖掘中并不存在,因为在关系型表格中并没有链接结构。
2.Web内容挖掘。Web内容挖掘从网页内容中抽取有用的信息和知识。例如,根据网页的主题,我们可以进行自动的聚类和分类。虽然这些任务与传统数据挖掘的任务相似,但是我们依然可以为了各种不同的目的从网页中根据模式抽取有用的信息,例如商品描述、论坛回帖等。而这些信息可以被用作进一步分析来挖掘用户态度。这些任务也不是传统的数据挖掘任务。
3.Web使用挖掘。Web使用挖掘从记录每位用户点击情况的使用日志中挖掘用户的访问模式。这项任务也使用了许多数据挖掘的算法。其中一项重要的议题是点击流数据的预处理,以便生成可以用来挖掘的合适数据。
【出处】Bing Liu,俞勇,薛贵荣,韩定一 译.Web数据挖掘,清华大学出版社,20094月第1.

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2026-1-3 00:50 , Processed in 0.073851 second(s), 20 queries .

版权所有: 全数联人才测评(北京)中心 备案图标.png 京公网安备11011102002767号 京ICP备2024094898号

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能职业认证中心

快速回复 返回顶部 返回列表