快速了解什么是自然语言处理

摘要:
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向 。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法 。自然语言处理是一门融语言学、计算机科学、数学等于一体的科学 。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别 。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统 。因而它是计算机科学的一部分 。

快速了解什么是自然语言处理

文章插图
1 计算机对自然语言处理的过程
1.1把需要研究是问题在语言上建立形式化模型,使其可以数学形式表示出来,这个过程称之为"形式化"
【快速了解什么是自然语言处理】1.2把数学模型表示为算法的过程称之为"算法化"
1.3根据算法,计算机进行实现,建立各种自然语言处理系统,这个过程是"程序化"
1.4对系统进行评测和改进最终满足现实需求,这个过程是"实用化"
2 自然语言处理涉及的知识领域
语言学、计算机科学(提供模型表示、算法设计、计算机实现)、数学(数学模型)、心理学(人类言语心理模型和理论)、哲学(提供人类思维和语言的更深层次理论)、统计学(提供样本数据的预测统计技术)、电子工程(信息论基础和语言信号处理技术)、生物学(人类言语行为机制理论) 。故其为多边缘的交叉学科
3 自然语言处理涉及的范围
3.1语音的自动合成与识别、机器翻译、自然语言理解、人机对话、信息检索、文本分类、自动文摘等等,总之分为四大方向:
语言学方向
数据处理方向
人工智能和认知科学方向
语言工程方向
3.2也可细分为13个方面
口语输入:语音识别、信号表示、鲁棒的语音识别、语音识别中的隐马尔科夫模型方法、语言模型、说话人识别、口语理解
书面语输入:文献格式识别、光学字符识别(OCR):印刷体识别/手写体识别、手写界面、手写文字分析
语言分析理解:小于句子单位的处理、语法的形式化、针对基于约束的语法编写的词表、计算语义学、句子建模和剖析技术、鲁棒的剖析技术
语言生成:句法生成、深层生成
口语输入技术:合成语音技术、语音合成的文本解释、口语生成
话语分析与对话:对话建模、话语建模口语对话系统
文献自动处理:文献检索、文本解释:信息抽取、文本内容自动归纳、文本写作和编辑的计算机支持、工业和企业中使用的受限语言
多语问题的计算机处理:机器翻译、人助机译、机助人译、多语言信息检索、多语言语音识别、自动语种验证
多模态的计算机处理:空间和时间表示方法、文本与图像处理、口语与手势的模态结合、口语与面部信息的模态结合:面部运动和语音识别
信息传输和信息存储:语音压缩、语音品质的提升
自然语言处理中的数学方法:统计建模和分类的数学理论、数字信号处理技术、剖析算法的数学基础研究、神经网络、有限状态分析技术、语音和语言处理中的最优化技术和搜索技术
语言资源:书面语料库、口语语料库、机器词典与词网的建设、术语编撰和术语数据库、网络数据挖掘和信息提取
自然语言处理系统的评测:面向任务的文本分析评测、机器翻译系统和翻译工具的评测、大覆盖面的自然语言剖析器的评测、语音识别:评估和评测、语音合成评测、系统的可用性和界面的评测、语音通信质量的评测、文字识别系统的评测

推荐阅读