协作会话语音用户界面的系统和方法
2019-11-22

协作会话语音用户界面的系统和方法

提供了协作会话语音用户界面。协作会话语音用户界面可以基于短期和长期共享知识,以生成有关用户发声的意图的一个或多个显式的和/或隐式的假设。可以基于变化的确定程度,对假设进行分级,并可以为用户生成适应性响应。可以基于确定程度,用言辞来表达响应,并使随后发声的适当域成帧。在一种实现方式中,错误识别可以容忍,可以基于随后的发声和/或响应,纠正会话过程。

根据本发明的ー个方面,共享的知识305包括有关传入的数据的短期和长期知识。短期知识可以在単一谈话过程中累积,而长期知识可以随着时间的推移累积,以构建用户概况、环境概况、历史概况或认识概况等等。

图2是根据本发明的ー个方面的会话语音引擎的示范性方框图。

Description

根据本发明的另ー个方面,智能假设可以包括发声中的用户的意图的ー个或多个假设。此外,智能假设可以使用短期和/或长期共享知识,以主动地随着谈话的进行或随着时间的推移来构建和评估与用户的交互。这些假设可以模型化人与人的互动,以包括每ー个假设的变化的确定程度。即,正如人依赖于參与者共享的知识来审查有多少信息以及有什么样的信息可用,智能假设可以利用标识的谈话类型和共享的知识来生成每ー个假设的确定程度。

例如,在一种实现方式中,查询谈话可以包括获取单独的信息片段或执行特定的任务的谈话目标,其中,查询谈话的主导头脑中可能有特定目标,并可能引导谈话往下进行,以实现目标。其他參与者可能持有信息,并可能通过提供信息来支持主导。在启发式谈话中,谈话的主导可以控制谈话的支持者所需的信息。支持者的角色可以仅限于调节谈话的整个进展,并插入查询,以便澄清。在探讨性的谈话中,两个參与者都共享主导和支持者角色,谈话可能没有特定目标,或目标可以随着谈话的进行而即席实现。基于此模型,智能假设生成器310可以根据下面的图形广泛地对谈话(或发声)进行分类:

智能假设生成器310可以使用标识的谈话类型,以有助于生成一组针对发声中的用户的意图的假设。此外,智能假设生成器310可以使用来自会话输入累加器的短期共享知识,以主动地随着谈话的进行来构建和评估与用户的交互,并使用长期共享知识,以主动地随着时间的推移来构建和评估与用户的交互。如此,智能假设生成器310可以自适应地取得有关用户意图的ー组η个最佳假设,可以向适应性响应生成器315提供η个最佳假设。此外,智能假设生成器310可以通过计算每一个假设的确定程度来模型化人与人的互动。即,正如人依赖于參与者共享的知识来审查有多少信息以及有什么样的信息可用,智能假设生成器310可以利用标识的谈话类型和短期和长期共享知识来生成每ー个假设的确定程度。 根据本发明的另ー个方面,当发声包含完成请求或任务所需的所有信息(包括限定符)时,智能假设生成器310可以生成用户的意图的ー个或多个显式的假设。每ー个假设都可以具有对应的确定程度,可以用来确定响应中提供的未经提示的支持的级别。例如,响应可以包括ー个确认,以确保发声不会被误解,或者,响应可以自适应地提示用户提供遗漏的信息。

输入105的发声分量可以由自动语音识别器110进行处理,以生成发声的ー个或多个初步解释。自动语音识别器110可以使用当前技术已知的任何适用技术对发声进行处理。例如,在一种实现方式中,自动语音识别器110可以使用语音听写的技术,解释发声,以识别音素流,如标题为“DynamicSpeechSharpening”的待审批的美国专利申请系列编号11/513,269所描述的,在此引用该申请的全部内容作为參考。然后,可以将由自动语音识别器110生成的ー个或多个初步解释提供到会话语音引擎115,以便进一步进行处理。会话语音引擎115可以包括会话语言处理器120和/或语音搜索引擎125,如下面的图2比较详细地描述的。会话语音引擎115可以与ー个或多个数据库130进行通信,以生成自适应会话响应,响应可以作为输出140返回到用户。在一种实现方式中,输出140可以是多模输出和/或与一个或多个应用程序145的交互,以完成请求。例如,输出140可以包括音频响应和导航设备上的路线的显示的组合。例如,发声可以包括执行操作的请求,而输出140可以包括报告成功或失败的会话响应,以及操作的执行。此外,在各种实现方式中,自动语音识别器110、会话语音引擎115,和/或数据库130可以驻留在本地(例如,在用户设备上)、远程(例如,在服务器上),或者,也可以使用本地和远程处理的混合模式(例如,可以在本地对轻量级应用程序进行处理,而在远程对计算密集的应用程序进行处理)。

利用特定的示范性实现方式和实施例对本发明进行了描述。然而,所属领域的技术人员将认识到,在不偏离本发明的范围和精神的情况下,可以进行各种修改。因此,说明书和图形都只是示范性的,本发明的范围仅仅由所附的权利要求来确定。

请參看图2,该示范性方框图显示了根据本发明的ー个方面的会话语音引擎215。会话语音引擎215可以包括会话语言处理器220,该处理器使用自由形式的语音搜索模块245、噪声耐量模块250,和/或上下文判断进程255,生成对ー个请求或一系列请求的自适应会话响应。根据本发明的ー个方面,模块245-255可以与语音搜索引擎225进行通信,语音搜索引擎225包括ー个或多个上下文域代理230和/或一个或多个词汇表235,以帮助解释发声和生成响应,如TomFreeman和LarryBaldwin所著的“EnhancingtheVUE™(Voce-User-Experience)ThroughConversationalSpeech”所描述的,在此引用该申请的全部内容作为參考。会话语音引擎215可以生成针对ー个或多个请求的自适应会话响应,其中,请求可以取决于未说出口的假设、不完整的信息、由以前的发声建立的上下文、用户概况、历史概况、环境概况,或其他信息。此外,会话语音引擎215可以跟踪哪些请求已经完成,哪些请求正在被处理中,和/或哪些请求由于信息不完整或不准确而不能处理,并可以相应地生成响应。