找回密码
 立即注册
查看: 44|回复: 0

数据词典:中文信息检索(Chinese Information Retrieval)

[复制链接]

656

主题

70

回帖

2291

积分

管理员

积分
2291
发表于 2025-11-2 13:48:46 | 显示全部楼层 |阅读模式
中文信息检索(Chinese information retrieval) 以中文文献(文档) 为主要处理对象,对其结构化和非结构化数据包括多媒体信息进行储存、索引、查询和管理的方法和技术。快速和准确地检索信息是信息检索的研究重点。信息检索的本质是如何有效地表示文献和以何种方式描述用户的检索需求。中文信息检索和西文信息检索在原理和机制上并无本质的区别,两者在技术上的差别主要是由汉字本身造成的,其特殊性主要表现在;汉字编码,汉字字符集和内码,汉语切分(分词)和较高层次的自然语言处理技术。在中国,信息检索在20世纪90年代前称为情报检索。中文信息检索的研究是从1974年“汉字信息处理工程”开始的。
信息检索起源于H . P . Luhn20 世纪50年代对文献进行的统计学分析,60年代开始开发联机检索系统,70年代开始在理论上进行了大量的研究,80年代由于计算机处理能力的大幅度提高和信息量的快速增长,全文检索技术被普遍采用,90年代的重点研究内容是支持复合文档的文档管理系统。
中文信息检索主要研究以下内容: ①信息检索的数学模型,即采用何种方法计算用户检索需求和文档之间的相关性。主要的数学模型有布尔检索模型、向量空间模型、概率检索模型、扩展布尔模型等,其中布尔检索模型为大多数商用系统采用。②文献处理,研究自动录入和校对、自动标引和自动分类、自动文摘。根据特殊需要,可能还要自动翻译。③提问和词汇处理,包括词法分析,停用词处理技术,叙词表(主题词表) 构造等。④实现技术,包括用倒排文件结构、位图文件、散列索引、B 树索引等实现快速检索。⑤检索效用, 即查全率和查准率关系的研究,系统评测数据库的建立,自动修改提问式的相关反馈技术和对检索结果与提问的相关程度进行排序的相关排序技术等。⑥标准化,包括标准的主题表结构、标准的检索语言、文献的格式标准、客户服务器环境下的检索协议标准等。⑦扩展传统信息检索的范围,包括融合关系数据库管理系统(RDBMS) 的功能、超文本和超媒体功能。⑧利用专用的硬件或并行计算机进行并行信息检索。
中文信息检索目前已有实用系统,主要是书目型的标引检索系统和可用全文中的自由词进行检索的全文检索系统。中文信息检索的主要应用领域有:政府部门、报社和新闻社、信息中心、图书馆、法律部门、公司甚至个人用户。
因特网的发展大大促进了对信息检索的需求。基于内容而不是关键词的信息检索是发展方向,其目标主要是研究数据库上的快速检索技术以及和万维网数据库的集成,广域信息服务系统是新一代检索系统的代表之一。
【出处】张效祥. 计算机科学技术百科全书,清华大学出版社,20185月第3.

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2025-11-18 06:30 , Processed in 0.097736 second(s), 20 queries .

版权所有: 全数联人才测评(北京)中心

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能专员认证中心

快速回复 返回顶部 返回列表