AI智能车载语音101及其供应链

2022-01-30 14:10

AI智能语音的原理

前端信号处理

是麦克风接收到语音之后，前端信号处理进行回声消除以及降噪以供下一步的处理。

ASR自动语音识别

这一步是将语音数字化，然后分解或解析口语问题中的自然语言，以便机器识别每个单词。由于不同的口音、无法识别的语调，同时语义具有领域性特征，甚至环境背景噪音，这种翻译的准确性可能并不总是 100％，这也是具有挑战性的，所以这里有两个重点，一个是芯片处理速度，第二个是芯片处理算法。所以现代ASR 引擎利用云中高度可扩展的计算服务，并应用自动语音识别（ASR）算法将短语快速分解为可分析的组成词。为 Alexa 提供支持的一项此类服务称为 Amazon Lex，现在所有主要供应商都提供云服务：Microsoft Cognitive Services、Google Cloud Natural Language。这些服务不仅为应用程序开发人员提供了一个集成的云服务来执行 ASR，而且还执行理解单词和确定意图所需的分析和统计置信度评分。

NLU自然语音理解

这一步在单词被解析并翻译成机器语言后立即发生。自然语言理解（NLU）是语音控制迄今为止最困难的一步，因为系统需要理解用户原始问题的意图。由于自然口语可能存在歧义，因此这一点很复杂，因此 NLU 算法必须使用各种词汇分析模型来消除单词的歧义。这也就是构建成了现有玩家们的核心实力。当前AI语音中开发人员创建规则来“训练”应用程序正确应用这些规则以确定用户的意图。当然，每个人提出的问题都不一样。因此，多个问题可能具有相同的意图。例如，以下话语可能都具有相同的意图，调低空调温度：“请调低空调温度”“我很热”“我觉得很热”只有正确理解了意图，才可以启动功能。

DM 对话管理

很多时候我们判断车机智能不智能都会通过和他聊天去确定他是傻还是真智能，而聊天很多时候语句会断而且还有补充语句，这个时候对话管理就异常重要。例如：
“请帮我导航到最近肯德基”结果你还需要停车场，那么你可能立马补充一句有停车场的，甚至很多时候你会有更多的补充，在这里，对话的对话方面被考虑在内。对话实际上是用户与系统之间的动态交互序列，这意味着策略定义、执行子任务以及从诸如用户误解等意外情况中检索。通过记住对话历史，可以使计算机输出更自然，更符合智能语音。

NLG自然语音生成

为了提出交互式响应，计算机需要能够与用户进行交流。这被称为自然语言生成（NLG）。把它想象成与以上刚刚描述的相反的方向。NLG 使用机器语言，使用一组语法规则和词典，将其翻译成规则的单词和句子。

TTS文字转语音

通常，最后一步是使用语言模型将文本合成为音频，以在称为文本到语音的过程中模拟人声，从而实现互动。同样，以 AWS 为例，AWS 上有一项名为 Polly 的服务，可将文本转换为逼真的语音，以便确认或其他问题可以以自然语音回传。每次您的设备向您“写”一些东西时，它也会大声说出来。这是文字转语音。

总共这六大块，有业内人士说“语音识别技术并不难，有很多开源的技术，难的是语义理解，这需要建立一个复杂的知识库（内容域），将字词和背后的意思联系起来，其实这就需要人工智能的能力，需要大数据对人工智能的不断总结和训练（这个和我们之前文章高级自动驾驶的“拦路虎”以及路径和战略选择讲当前ADAS方法一样与用户共创）。