自然语言是利用电脑等工具对人类所持有的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人—机—人系统。电子计算机处理和加工人类的书面和口头语言信息的技术。同时它也是人工智能的一个主要内容,是人类用电子计算机模拟人类智能的一个重要尝试,也是人工智能领域的一大突破点。

如图所示:

222a4db4bc1eaaf1c7aae6d9bab0e187.png

b0f5a2bafad6330d95b1070be4b050e4.png

1.自然语言(NLP)处理系统包括:

1、机器翻译系统

2、自然语言理解系统

3、信息自动检索系统

4、信息自动抽取系统

5、文本信息挖掘系统

6、术语数据库系统

7、计算机辅助教学系统

8、语音自动识别系统

9、语音自动合成系统

10、文字自动识别系统

举个例子:智能问答机器人就包括了自然语言理解系统、信息自动搜索系统、信息自动抽取系统、文本信息挖掘系统、语音识别系统和语音合成系统。需要和大家强调的是,智能问答机器人不单单是简单地搜索关键词寻找对应语句而是有规律的自然语言处理和信息检索还是有所区别的。

3eabd54b8333e6c191a373be8a28efe4.png

2.自然语言处理的基本原理:

关于机器理解自然语言,早期,人们基于句法--语义规则的方法解决了简单问题,但是无法从根本上将自然语言理解实用化。随着语料库建设和语料库语言学的发展以及计算机技术本身的科技发展,使用概率和数据驱动的方法,自然语言处理可以专注于大规模真实文本的处理。语料库语言学是基于语言运用的即语料库的语言研究。语料库语言学可以对自然语言进行语法与句法分析,还可以研究它与其他语言的关系。就是说在句法剖析、词类标注、参照消解、话语分析、机器翻译这些技术中引入概率,并且采用从语音识别和信息检索中借鉴的基于概率和数据驱动的评测方法。

自然语言处理中也使用机器自动学习的方法,让计算机自动地从语料库中获取准确的语言知识。自然语言处理的热点包括建设机器词典和大规模语料库。由于建造标注语料库需要较高的成本,相比有监督的机器学习方法和无监督的机器学习技术会得到更广泛的应用。支持向量机技术、最大技术、多项逻辑回归、图式贝叶斯模型技术广泛应用于自然语言处理研究。随着高性能计算机的发展和应用,机器学习系统可以得到很好的训练,系统性能也能得到提高。需要强调的是,使用机器学习方法开发的基于语料库的自动分析软件是独立于具体语言的。研究者不需要懂相关语言,只要基于训练语料库使用自动分析软件就可以得出不错的结论分析。

统计数学方法被广泛应用到分析语言数据,建立了概率性的基于统计的语言模型,计算机根据模型的概率参数,可以估计出自然语言成分出现的可能性。语言统计模型包括隐马尔可夫模型,最大熵模型(MaximumEntropyModel)支持向量机,条件随机场等。

5b2d0b9a609de2dbb01b99c3ae40280e.png

3.自然语言处理的基本技能是?

如图:自然语言处理需要机器学习的相关知识以及统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场等。

理解自然语言处理的基本线路:分词、词性标注、解析中文分词是中文信息处理的基础

总结:自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐