|
数据标注的主要目的是通过对目标数据补充必要的词性、关键字或语义信息等标签类元数据,提高其检索、洞察、分析和挖掘的效果和效率。按标注活动的自动化程序,数据标注可以分为手工标注、自动化标注和半自动化标注。从标注的实现层次看,数据标注可以分为以下两种: 1.语法标注:主要采用语法层次上的数据计算技术,对文字、图片、语音、视频等目标数据给出语法层次的标注信息。例如,文本数据的词性、句法、句式等语法标签;图像数据的颜色、纹理和形状等视觉标签。语法标签的特点是:标签内容的生成过程并不建立在语义层次的分析处理技术上,且标签信息的利用过程并不支持语义层次的分析推理。可见,语法标注的缺点在于标注内容停留在语法层次,难以直接支持语义层次上的分析处理。 2.语义标注:主要采用语义层次上的数据计算技术,对文字、图片、语音、视频等目标数据给出语义层次的标注信息——语义标签。例如,对数据给出其主题、情感倾向、意见选择等语义信息。与语法标注不同的是,语义标注的过程及标注内容应均建立在语义WEB和关联数据技术上,并通过OWL/RDF语言连接到领域本体及其规则库,支持语义推理、分析和挖掘工作。语义WEB中常用的技术有:知识表示技术(如OWL、RDF等)、规则处理(如SWRL、RDF Rule Language等)、检索技术(如SPARQL、RDF Query Language等)。 【出处】朝乐门.数据科学,清华大学出版社,2016年8月第1版.
|