定义

自然语言处理

什么是自然语言处理?

自然语言处理(NLP)是指计算机程序理解人类语言的口语和书面的能力,被称为自然语言。它是人工智能(AI.).

NLP已经存在超过50年,并在语言学领域具有根源。它在多个领域拥有各种现实世界应用,包括医学研究,搜索引擎和商业智能。

自然语言处理是如何工作的?

自然语言处理使计算机能够像人类一样理解自然语言。无论语言是口语还是书面语,自然语言处理都使用人工智能来获取真实世界的输入,处理它,并以计算机可以理解的方式理解它。就像人类有不同的传感器——比如耳朵来听,眼睛来看——电脑有程序来读,有麦克风来收集音频。就像人类有一个大脑来处理输入一样,计算机也有一个程序来处理它们各自的输入。在处理过程中,输入被转换成计算机可以理解的代码。

自然语言处理有两个主要阶段:数据预处理和算法开发。

数据预处理涉及准备和“清洁”用于能够分析它的机器的文本数据。预处理将数据以可行的形式放入并突出显示算法可以使用的文本中的功能。有几种方式可以完成,包括:

  • 象征化这是文本被分解为较小的单位。
  • 停止词去除。这是从文本中删除常用单词时,如此唯一的单词,这些单词提供了有关文本的最多的信息。
  • 词元化和鼻塞。这是单词被简化为词根形式来处理的时候。
  • 词性标注。这是基于它们的词语标记的单词 - 例如名词,动词和形容词。

一旦数据被预处理,就会开发出一种算法来处理它。有许多不同的自然语言处理算法,但常用的主要有两种:

  • 基于规则的系统。该系统使用精心设计的语言规则。这种方法在自然语言处理的发展中早期使用,仍然使用。
  • 基于机器学习系统。机器学习算法使用统计方法。它们根据接收到的训练数据学习执行任务,并在处理更多数据时调整自己的方法。采用机器学习、深度学习和神经网络,自然语言处理算法通过反复处理和学习,磨练自己的规则。

为什么自然语言处理很重要?

企业使用大量的非结构化,文本重型数据,需要一种有效处理它的方法。在线创建并存储在数据库中的许多信息是自然的人类语言,直到最近,企业无法有效地分析此数据。这是自然语言处理有用的地方。

可以在考虑以下两个陈述时看到自然语言处理的优势:“云计算保险应该是每个服务级别协议的一部分,”和“,”一个好的SLA确保一个更容易的睡眠 - 即使在云中也是如此。“如果用户依赖于搜索的自然语言处理,则该程序将识别出来云计算是一个实体,那是云计算的缩写形式吗SLA是服务水平协议的行业首字母缩写。

NLP使用图
这些是业务可以使用自然语言处理(NLP)的一些关键领域。

这些类型的模糊元素经常出现在人类语言中,而机器学习算法在口译方面一直很糟糕。现在,随着深度学习和机器学习方法的改进,算法可以有效地解释它们。这些改进扩大了可分析数据的广度和深度。

自然语言处理的技术和方法

语法和语义分析是与自然语言处理一起使用的两个主要技术。

句法是一个句子中单词的排列使其具有语法意义。NLP使用语法来根据语法规则评估语言的意义。语法技巧包括:

  • 解析。这是对句子的语法分析。例子:向自然语言处理算法输入“狗叫了”这句话。句法分析需要把这个句子分解成不同的词性——比如,dog =名词,barked =动词。这对于更复杂的下游处理任务非常有用。
  • 分词。这是拍摄一系列文本和从中获取单词的行为。例子:一个人把手写的文件扫描进电脑。该算法将能够分析页面,并识别被空格分隔的单词。
  • 句子打破。这将句子边界置于大字文中。例子:一个自然语言处理算法被输入文本“狗叫了”。我醒了。”该算法能够识别句点分割的句点。
  • 形态学分割。这将单词划分为较小的零件,称为语素。例子:单词untestable会被分解为[[un[[test]able]]ly],算法将“un”、“test”、“able”和“ly”识别为语素。这在机器翻译和语音识别中特别有用。
  • 干。这将它们划分为根形式的拐点。例子:在句子“the dog barked”中,算法能够识别单词“barked”的词根是“bark”。如果用户正在分析一个文本中关于bark的所有实例,以及它的所有词形变化,那么这将非常有用。算法可以看出它们本质上是相同的单词,尽管字母不同。

语义涉及使用和含义后面的用途。自然语言处理应用算法以了解句子的含义和结构。语义技巧包括:

  • 词感歧义。这是根据上下文衍生出单词的意思。例子:想想这个句子,“the pig is in the pen.”(猪在猪圈里。)钢笔这个词有不同的含义。使用这种方法的算法可以理解单词的用法这里指的是围栏区域,而不是写入工具。
  • 命名实体识别这决定了可以分成组的单词。例子:使用此方法的算法可以分析新闻文章并确定某些公司或产品的所有提升。使用文本的语义,它将能够区分视觉上的实体。例如,在句子中,“丹尼尔麦当劳的儿子去了麦当劳并订购了一个快乐的餐点,”算法可以识别“麦当劳”的两个实例,作为两个独立的实体 - 一个餐厅和一个人。
  • 自然语言生成它使用一个数据库来确定单词背后的语义并生成新的文本。例子:算法可以自动从商业智能平台上写出发现的结果摘要,将某些单词和短语映射到BI平台中数据的特征。另一个例子将根据用于培训的某个文本,自动生成新闻文章或推文。

目前的自然语言处理方法是基于深度学习,一种审查和使用数据模式的AI类型,以提高程序的理解。深度学习模型需要大量标记的数据用于自然语言处理算法来训练并识别相关的相关性,并组装这种类型大数据Set是自然语言处理的主要障碍之一。

早期的自然语言处理方法涉及基于规则的方法,在那里更简单的机器学习算法被告知在文本中寻找哪些单词和短语,并在这些短语出现时给定特定的响应。但深度学习是一种更灵活,直观的方法,其中算法学会从许多例子中识别扬声器的意图 - 几乎就像孩子如何学习人类语言。

通常用于自然语言处理的三个工具包括自然语言工具包(natural language Toolkit, NLTK)、Gensim和Intel自然语言处理架构师。NLTK是一个开源软件Python模块与数据集和教程。Gensim是一个用于主题建模和文档索引的Python库。Intel NLP Architect是另一个用于深度学习拓扑和技术的Python库。

自然语言处理用于什么?

自然语言处理算法执行的一些主要功能是:

  • 文本分类。这涉及到为文本分配标签以将它们分类。这对于情感分析很有用,有助于自然语言处理算法确定文本背后的情感。例如,当品牌A在X个文本中被提及时,算法可以确定这些提到中有多少是正面的,多少是负面的。它还可以用于意图检测,这有助于预测说话者或作者可能会根据他们所写的文本做什么。
  • 文本提取。这涉及自动总结文本并找到重要数据。其中一个示例是关键字提取,它从文本中取出了最重要的单词,这对于搜索引擎优化有用。用自然语言处理这样做需要一些编程 - 它不是完全自动化的。但是,有很多简单的关键字提取工具,可自动执行大多数过程 - 用户只需在程序中设置参数。例如,工具可能会释放文本中最常用的单词。另一个例子是命名的实体识别,其中从文本中提取人员,地点和其他实体的名称。
  • 机器翻译。这是计算机通过计算机将文本从一种语言转换为另一种语言,例如法语,如法语,而不会进行人为干预。
  • 自然语言生成。这涉及到使用自然语言处理算法来分析非结构化数据,并根据该数据自动生成内容。诸如此类的语言模型就是一个例子GPT3,它能够分析非结构化的文本,然后根据文本生成可信的文章。

上面列出的功能用于各种现实世界应用程序,包括:

  • 客户反馈分析——人工智能分析社交媒体评论;
  • 客户服务自动化——在客户服务电话的另一端的语音助手能够使用语音识别来理解客户在说什么,以便它可以正确地引导电话;
  • 自动翻译 - 使用谷歌翻译等工具,Bing Translator和翻译我;
  • 学术研究与分析——人工智能能够分析大量学术材料和研究论文,不仅基于文本的元数据,还基于文本本身;
  • 医疗记录分析和分类 - AI使用见解预测,理想预防,疾病;
  • 用于剽窃和校对的文字处理软件——使用Grammarly和Microsoft word等工具;
  • 股票预测及见解金融交易 - 使用AI分析市场历史和10兆文档,其中包含关于公司财务业绩的全面摘要;
  • 人力资源人才招聘;和
  • 自动化的日常诉讼任务,一个例子是人工智能的律师

自然语言处理方面的研究主要围绕搜索展开企业搜索。这涉及使用用户可能对另一个人构成的问题的形式查询数据集。该机器解释人类语言句子的重要元素,其对应于数据集中的特定功能,并返回答案。

NLP可以用来解释自由的、非结构化的文本,并使其可分析。免费文本文件中存储着大量的信息,比如患者的医疗记录。之前深度学习这些信息无法用计算机辅助分析,也无法用任何系统的方式进行分析。使用NLP分析人员可以筛选大量的免费文本,以找到相关信息。

情绪分析是NLP的另一个主要用例。通过情绪分析,数据科学家可以评估社交媒体上的评论,以了解他们的企业品牌表现如何,或者查看客户服务团队的笔记,以确定人们希望企业在哪些领域表现更好。

自然语言处理的好处

NLP的主要好处是它改善了人和计算机之间的通信方式。操作计算机最直接的方式是通过代码——计算机的语言。通过让计算机理解人类语言,人类与计算机的交互变得更加直观。

其他福利包括:

  • 提高了文件的准确性和效率;
  • 能够自动使一个更大的,更复杂的原始文本可读摘要;
  • 对于像Alexa这样的个人助理来说很有用,因为它能听懂别人说的话;
  • 使组织能够使用聊天机器人为了客户支持;
  • 更容易进行情感分析;和
  • 提供从数据量无法访问的分析的高级见解。

自然语言处理的挑战

自然语言处理有许多挑战,大多数人归结为自然语言永远不断发展的事实,总是有些暧昧。他们包括:

  • 精确。传统上,计算机需要人类用一种精确、明确、高度结构化的编程语言与它们“交谈”,或者通过有限数量的清晰发音的语音命令。然而,人类的语言并不总是精确的;它通常是模棱两可的,语言结构可能依赖于许多复杂的变量,包括俚语,地区方言和社会背景。
  • 语调和语调变化。自然语言处理尚未完善。例如,语义分析仍然是一个挑战。其他的困难包括:语言的抽象使用对于程序来说通常是难以理解的。例如,自然语言处理并不容易识别讽刺。这些话题通常需要理解对话中使用的词语及其上下文。另一个例子是,一个句子的意思会根据说话者重读的单词或音节而改变。在进行语音识别时,NLP算法可能会忽略一个人声音中细微但重要的音调变化。不同口音的语音语调和语调变化也可能不同,这对算法来说是一个挑战。
  • 不断发展的语言语言的自然语言处理也受到语言的挑战 - 以及人们使用它的方式 - 不断变化。虽然有语言的规则,但没有用石头写成,而且它们会随着时间的推移而变化。现在,工作的硬计算规则可能会随着时间的现实语言变化的特征而变化。

自然语言处理的演变

自然语言处理借鉴了多种学科,包括可追溯到20世纪中期的计算机科学和计算语言学的发展。它的演变包括以下主要里程碑:

  • 1950年代。当Alan Turing开发时,本十年来,自然语言处理有其根源图灵测试确定计算机是否真正智能。该测试涉及自动解释和自然语言的产生作为智能的标准。
  • 20世纪90年代 - 1990年代。NLP在很大程度上是基于规则的,使用语言学家开发的手工规则来确定计算机将如何处理语言。
  • 1990年代。自上而下的语言 - 首先对自然语言处理的方法被更具统计方法所取代,因为计算的进步使得这种更有效地发展NLP技术。计算机变得更快,可用于根据语言统计制定规则,而无需语言学家创建所有规则。数据驱动的自然语言处理在这十年中成为主流。自然语言处理从基于语言学家的方法转移到基于工程师的方法,在更广泛的科学学科上绘制而不是深入语言学。
  • 2000-2020S。自然语言处理视为普及的巨大增长为一个术语。随着计算能力的进步,自然语言处理也获得了许多现实世界的应用。今天,NLP的方法涉及经典语言学和统计方法的组合。

自然语言处理在技术和人类与之交互的方式中起着至关重要的作用。它在商业和消费领域的许多实际应用中都得到了应用,包括聊天机器人、网络安全、搜索引擎和大数据分析。虽然不是没有挑战,但预计NLP将继续成为工业和日常生活的重要组成部分。

尽管存在疑问,但自然语言处理正在医学成像领域取得重大进展。学习如何放射科医师使用AI和NLP在他们的实践中回顾他们的工作和比较案例。

这是最近更新的3月2021年3月

继续阅读自然语言处理(NLP)

深入了解自然语言处理技术

搜索业务分析
搜索首席信息官
搜索数据管理
搜索ERP
关闭