|
自然语言处理(Natural Language Processing,NLP)是人工智能领域之一,主要是研究计算机语言与人类语言之间的交互,尤其是如何处理和分析大量自然语言数据。 语言是人类区别于其它动物的重要标志之一。人借助于自然语言交流思想,达到相互了解,组成人类社会;人还借助于自然语言进行思维,认识事物的本质和规律,创造了人类的物质文明和精神文明。 自然语言处理是人工智能的主要内容之一,是用计算机模拟人类智能的一个重要方面。自然语言处理的主要任务在于建立各种自然语言处理系统,如机器翻译系统、自然语言理解系统、信息自动检索系统、电子词典和术语数据库系统、计算机辅助教学系统、语音自动识别系统、语音自动合成系统、文字自动识别系统等。由于自然语言处理离不开计算机,因此,自然语言处理又可以称为“自然语言的计算机处理”,以强调计算机对自然语言处理的作用。 在计算机应用中,早已设计了许多人工语言,如BASIC、PASCAL、COBOL、PROLOG、LISP 等程序设计语言。美国语言学家Noam Chomsky 的形式语言理论,既适用于人工语言,也适用于自然语言,这有力地说明,自然语言与人工语言之间,在形式描述方面,确实存在着某些共同的性质。正如美国著名的逻辑学家Richard Montague 在《英语作为一种形式语言》一文中所说的:“我并不认为形式语言和自然语言之间在理论上存在着重要的区别。”但是,自然语言毕竟是人类历史长期发展而约定俗成的产物,它带着几千年人类历史的痕迹,比人工语言要复杂得多,因而用计算机处理起来也就困难得多。 自然语言在下述四个方面与人工语言有很大差异: 1.自然语言中充满歧义, 而人工语言中的歧义则是可以控制的; 2.自然语言的结构复杂多样,而人工语言的结构则相对简单; 3.自然语言的语义表达千变万化,迄今还没有一种简单而通用的途径来描述它,而人工语言的语义则可以由人来直接定义; 4.自然语言的结构和语义之间有着千丝万缕的、错综复杂的联系,而人工语言的结构和语义之间的联系则相对要简单一些,所以常常可以把结构和语义分别进行处理。 在自然语言和人工语言之间还存在着一种人工设计的国际辅助语,如世界语等,由于这些语言已经成为活生生的、发挥着自然语言正常作用的语言,也应该归入自然语言的范围。 由于自然语言的这些独特性质,使得自然语言处理成为人工智能的一大难题。从20 世纪40 年代以来,国内外学者在这个新的学科领域进行了大量的探索,已经取得了不少成果。 自然语言处理的研究有两大主流: 一个是面向机器翻译的自然语言处理;另一个是面向人工智能的自然语言处理。 面向机器翻译的自然语言处理开始于20世纪40 年代末期,经过1954年到1970年的草创期和1970年到1976年的复苏期,而从1976 年加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发的机器翻译系统TAUM-METEO正式投入实用,提供天气预报的翻译服务之后,机器翻译研究进入了繁荣期,走向了实用化和商品化的道路。 面向人工智能的自然语言处理着重于研究自然语言的计算机理解。20世纪60年代末期, M .R .Quillian 提出了语义网络理论,用于描述概念之间的关系,1973 年,Roger Schank 提出了概念依存理论,1975年,Marvin Mins ky 提出了框架理论,这些都是自然语言理解的基础性研究。早期的自然语言理解系统出现于60 年代初期,这些系统是建立在对词类和词序分析的基础之上的。70 年代以来,大量引进语义、语境以及语用的分析技术。1972年,设计出了LUNAR系统和SHRDLU 系统,1975年,设计出了MARGIE 系统,这些系统把句法分析、语义分析、逻辑推理结合起来,具有很好的自然语言理解功能。目前,自然语言理解的研究已走向实用化,广泛应用于自然语言的人机接口中。 90 年代,在自然语言处理中,开始把大规模真实文本的处理作为今后的战略目标,引入语料库方法,包括统计方法、基于实例的方法以及通过语料加工使语料库转变为语言知识库的方法等。国际学术界在自然语言处理的理论、方法和工具等问题上正酝酿着一场全面的革新。 【出处】张效祥. 计算机科学技术百科全书,清华大学出版社,2018年5月第3版.
|