商业银行智能语音导航语音识别能力现状调研及发展建议
来源: 时间:2022-02-28
数字化转型加速,人工智能技术广泛应用,依托语音交互的产品已成为各行各业提供高质量服务的有力抓手。以银行业为例,我国大型商业银行纷纷上线智能语音导航(以下简称“导航”)、开放全语音门户模式应用,即是满足新时代下客户追求舒适、便捷服务体验的直接体现。而语音识别作为导航服务全流程的首个环节,其效果决定了客户需求是否被精准捕捉,极大程度上影响了服务质量与客户体验。

本文在多维度体验测评不同商业银行导航语音识别效果的基础上,研究分析不同影响因素的作用程度及对应提升手段,为推进商业银行智能服务高质量发展提供参考借鉴。


01影响因素分析


目前,市场上定义语音识别技术是指机器通过识别和理解过程将语音信号转变为相应文本或命令的技术。因此,导航的语音识别环节也包括识别和理解两个过程,且由于识别过程易受到语音输入所处环境影响、理解过程易受到语音内容影响,故导航语音识别效果与客户表述环境及客户表述内容紧密相关。其中客户表述环境主要包括设备、发音方式、环境安静程度三个因素,客户表述内容主要包括语料包含关键词类别、语料长度、表述方式三个因素。


(一)客户表述环境影响因素


1.设备
目前,导航与客户主要是通过语音交互,因此语音输入效果是导航语音识别效果的一个重要因素。语音输入效果与使用设备紧密相关,受设备自身性能差异影响,一般情况下手机的收音及降噪能力要优于固话。如手机中有一个麦克风具有主动消除噪音的功能,但固定电话却不具备该条件。
2.发音方式
发音方式主要是指主说话人的发音特点,包括在语音、词汇及语法等方面表现出的差异。我国地域广阔,历史发展过程中使得现代汉语存在各种方言形式。导航通过语音与客户交互的特点,使得客户更倾向于以“日常对话”式的风格与导航交流。以广东地区客户为例,当地工作生活主要使用粤语,因此当地客户在发音上表现出与普通话不同的特点,对导航的语音识别能力也提出了更高的要求。
3.环境安静程度

环境是否安静,决定了产品在收音时是否能清晰的捕捉到主说话人的声波。现有技术条件下,市场上应用的语音识别产品还尚未具有人的精准感知,实现像人一样清楚的分辨出主说话人及非主说话人的音源。因此,客户所处环境的安静程度易对导航语音识别效果产生影响。若客户在车站、地铁等嘈杂场所时,周围环境的噪音可能会使得导航的语音识别效果大打折扣。


(二)客户表述内容影响因素


1.关键词类别
商业银行所处的金融行业,对于大部分客户来说属于专业性较强的行业。因此其业务涉及的专业词汇,客户并非都熟悉了解,不一定能够做到精准表述。另外,银行业务关键词除涉及中文关键词外,还有英文关键词。客户表述中是否包含关键词可能对导航语音识别效果产生一定影响。
2.语料长度
语音交流与文字交流相比,缺少了思考、整理、总结的过程。因此,在语音交互时,易出现因存在语气词或重复表述等现象的长语料表述。考虑到导航与客户的互动,相比其他语音交互形式(如在输入法产品上通过语音转文字的形式输入内容)有一定时间限制,长语料的存在可能导致导航未完整识别客户表述内容,进而使得识别结果出现偏差。
3.表述方式
表述方式主要是由于不同客户的个性不同,因此表达业务需求的形式也会存在差异。而且汉语言博大精深,客户的表述方式稍微变换,可能其表述的含义恰恰相反。因此,导航准确识别并理解客户不同表述方式下的真实意图,是后续交付正确业务结果的重要前提。

02应用现状调研

(一)调研方式
调研即分别从客户表述环境及客户表述内容两方面开展测评,通过观察不同商业银行(选取5家调研对象,分别为中国工商银行、中国建设银行、中国农业银行、中国银行、招商银行)导航的反馈情况判断评估语音识别效果。
调研充分考虑客户表述内容涉及因素,设计10个测试案例,使用普通客户身份拨打商业银行客户服务热线、依次置于客户表述环境涉及因素下(包括2类设备、3类发音、4类环境共9种情形)开展测试(手工调研存在一定误差,调研结果供参考分析)。具体案例如表1所示。
表1:调研维度及使用案例