5项技术进步使语音机器人变得更加可行
来源: 时间:2023-06-25
  让我们回到2019年,根据弗雷斯特研究公司(Forrester Research)的数据,大多数消费者都讨厌聊天机器人。事实上,分析师发现,54%的美国在线消费者认为,与聊天机器人互动"对他们的生活质量产生了负面影响"。

  值得庆幸的是,自那以后,对话式人工智能取得了突飞猛进的发展,人们对语音机器人的兴趣尤其高涨。这种兴趣很大程度上可能源于目前围绕ChatGPT和生成式人工智能的炒作。

  事实上,这些技术已经增强了许多企业对话式人工智能平台。尽管如此,更多的技术进步为2023年客户友好型、高附加值的语音机器人做出了贡献。

  以下是这些进步的五个例子,它们使该技术成为各种形式和规模的企业更可行的选择。

 1 
语音识别

  2020年3月,Statista发表了一项研究,发现各行各业语音到文本自动转录模型的平均准确率为77%。
  换句话说,平均模型只能准确地转录100个单词中的77个。

  然而,三年过去了,这项技术更加先进了。事实上,微软和亚马逊的准确率分别达到了95.9%和95.6%。

  尽管如此,20个单词中有1个单词的错误率可能听起来很糟糕。然而,这数字还算合理。正如babelforce首席执行官兼联合创始人皮尔斯o巴克利所解释的那样:

  "与客户的对话可能涉及简单的语言,而不是科学论文或复杂书籍中的棘手术语--人工智能将难以驾驭这些术语。"

  因此,根据Buckley的说法,语音机器人在简单的用例中--比如在人工座席交互之前预先收集客户信息--现在的成功率已经超过了80%。

  此外,剩下的< 20%的大部分将因为与会话AI模型的功能分离的问题而失败。

  例如,可能集成系统无法定位客户ID号,或者客户没有现有记录。这类问题最有可能导致语音机器人故障。

 2 
语音合成

  想想我们是如何说话的,作为人类,不断地改变我们的重点--以非常微妙的方式--来传达语气和意思。对于语音机器人来说,这要棘手得多。
  通常,语音机器人供应商会采取两种方法中的一种来克服这个问题。

  首先,他们可能采用预测的、基于统计的神经网络或随机模型。

  另一种选择是人工编写规则,开发人员可以使用语音机器人中的控制机制来强调重点。

  然而,随着语音机器人的发展,供应商们正在寻找一种皆大欢喜的媒介。在分享原因时,巴克利说:

  想象一下,写出一个句子,其中有两个重音。你希望能够告诉机器人这样做。你不想等六个月,直到神经网络有足够的数据来处理这种类型的请求,所以它会自动完成。应该会在周五上线。"

  因此,界面将允许开发人员添加重点--或语言学家所说的"韵律标记"--这样机器人就能以期望的方式说话。

  然而,神经网络将在机器人内部运行,不断学习和改进--跨越它所说的每一种语言--所以未来的一代需要更少的人工编程。

 3 
无代码(NoCode)工具

  在第一次使用语音机器人的30分钟内,企业可以在计划接下来一周的A/B测试时启动并运行第一个流程。
  这样的部署速度是相对较新的,其中很大一部分源于低代码 (Low-Code) 或无代码 (No-Code)接口的开发。

  这些界面使构建语音机器人的体验类似于玩视频游戏,因为开发人员可以浏览下拉菜单,连接对话框,并选择各种任务和操作。

  现在,有了大语言模型(LLM),各大品牌在这方面走得更远。例如,谷歌正在使用其硬件驱动的App Builder来绘制会话流程,并为IT团队自动调整设计,仅使用自然语言提示。

  这样的创新是优秀的。然而,品牌必须记住,语音机器人成功的最关键因素是它与联络中心利用的各种其他数据集的沟通能力。

  "把它想象成一座冰山,"巴克利说。"顶部的亮点是AI组件。然而,你的泰坦尼克号将要撞上的那90%都是数据流。"

  因此,品牌还必须与能够围绕各种系统包装API并升级系统架构的供应商合作,以便IT团队可以随时快速优化Bot。

 4 
自然语言理解(NLU)

  直到最近,将NLU嵌入到可操作的AI模型中被证明是乏味的。

  对话式设计团队会坐下来,考虑客户有多少种方式可以表达他们有一个特定的问题。

  这需要很长时间。例如,一家澳大利亚银行发现了2000多种客户问"我的余额是多少?"

  银行的员工必须手动将这些咨询插入语音机器人。

  巴克利说:"在一种语言中,有40或50种不同的方式来简单地说'是'和'不是'。"变化是惊人的。"

  因此,即使是最具事务性的对话,也需要付出难以置信的努力来绘制所有可能性,并将它们映射到"NLU结果"。

  近年来,随着语音分析系统能够理解意图,这一过程得到了改善。然而,它们的价格很高,用多种人工智能技术对它们进行测序就变成了另一回事。

  现在,随着大语言模型(LLM)的出现,它可以在没有任何事先培训的情况下检测客户的意图,这变得简单多了。

  事实上,许多语音机器人提供商已经在用他们的语音机器人解决方案来增强这些模型。

 5 
对话框管理

  巴克利表示:"任何地方都没有擅长对话管理的大语言模型(LLM)或神经网络。
  "当你使用ChatGPT时,你可能会认为它有上下文,但它没有。

  "API在后台所做的是用新的提示重新注入以前的提示。"

  因此,像ChatGPT这样的工具可以模拟拥有上下文。但是,实际上,他们只引用了对话的前一部分,这导致了人们在网上发布的许多有趣的对话。这是一个很好的例子:

  尽管如此,它在某些方面仍然令人印象深刻。例如,它可以记住以前提示中的人名和角色,这是一个惊人的飞跃。

  此外,一些语音机器人现在利用LLM来检测客户在谈话中途的意图何时发生变化,并将客户拉回正轨。

  得益于这些新功能,对话管理在一定程度上得到了改进。然而,还有很长的路要走。

  "与对话有关的一切,它应该以什么模式发生,以及之前发生的事情的知识都必须由人类编程。"

  因此,重新配置和快速测试任何语音机器人设计(包括后端集成)的能力至关重要(这让我们回到第三点…)。

  结束语

  部分归功于这五项技术的进步,对话式人工智能的发展可能会在未来三年内起火。

  事实上,尽管机器人只自动化了1.6%的座席交互,但根据Gartner的估计,截至2022年,这一数字将在2026年上升到10%。

  这是一个相当大的增长,技术合作伙伴正在帮助品牌为未来做好准备,提供出色的语音人工智能和专家支持服务。