智能客服渠道的质检该怎么做?
来源: 时间:2026-04-29

图片


质检团队接手智能客服渠道的时候,通常会做一件很自然的事:把原来用于人工坐席的质检表改一改,删掉几条"服务态度"相关的指标,加上几条"意图识别准确率""关键词命中率",然后开始抽查对话。

这套做法在头几个月会产生一批数据,数据看起来还不错,于是被当作质检体系稳定运行的证据。


但这里有一个问题从来没有被认真问过:机器人说错了一句话,和坐席说错了一句话,是同一种性质的错误吗?

坐席说错话,原因可能是态度问题、知识缺口、当日状态不好,或者就是理解偏差。质检把这条通话标记为扣分项,然后找坐席复盘,这个闭环是通的——因为改变的对象是一个可以被反馈影响的人。


机器人说错话,原因是知识库内容有误、意图模型训练样本不足、对话流设计没有覆盖这个场景,或者三者都有。质检把这条对话标记为扣分项,然后……然后呢?没有一个具体的人会因为这个扣分去改变行为。这个分数挂在那里,如果没有明确的机制把它转化成产品侧的改动,它就只是一个数字。


这是智能客服质检和人工坐席质检最根本的区别,也是很多质检团队在这件事上做了一年却感觉越来越虚的原因。

人工质检的核心动作是"发现问题,反馈给人,人做出改变"。机器人质检的核心动作应该是"发现问题,定位根因,推动产品/系统改进"。

前者的终点是一次辅导或一份绩效记录,后者的终点是一次知识库更新或一次对话流重构。这两件事在形式上都叫"质检",但它们是两种完全不同的工作。

把这个区分搞清楚之后,智能客服质检要检查什么,就会变得更具体。

意图识别这件事值得单独说一下。很多质检体系把"意图识别准确率"当作核心指标,这个指标本身没有问题,但它只能告诉你机器人听没听懂用户说的话,不能告诉你机器人听懂之后给的答案对不对。

一个用户说"我要退款",机器人正确识别了意图,然后给出了一段话术,话术里的退款政策是三个月前的旧版本。意图识别准确率:满分。用户的问题:没有被解决。这两件事同时发生,一点都不矛盾。

真正需要检查的,是对话的服务结果,而不只是对话的技术表现。判断一条机器人对话的质量,核心问题只有一个:用户的诉求,在这段对话里有没有得到处理?

这个判断需要质检员看完整条对话,理解用户在找什么,再对照机器人给出的路径,判断这条路有没有走通。这比打一个"意图识别准确"的勾要复杂得多,但它是唯一真实的评价维度。


图片


在实际操作中,有几类对话特别值得优先抽检。转人工的对话,是最直接的信号源——用户没有从机器人那里得到满意的结果,所以选择了退出。

这部分对话里藏着机器人覆盖不了的场景、回答不了的问题,以及让用户在对话中途产生负面情绪的节点。

重复接入的对话,意味着用户上次的问题没有被解决,这次又来了——如果同一个用户在72小时内针对同一个问题接入了两次,第一次对话基本上是失败的,不管它的质检分数是多少。

还有一类是在对话中途用户明确表达过不满的,这些词往往不是"投诉"这种标准词,是"你到底有没有在听我说话""你就会说这一句是吗"——这类情绪信号需要质检员识别,系统往往不会自动标记。

标注和改版之间的断层,是智能客服质检里最容易被忽视的问题。质检员抽了一批对话,发现了问题,写了一份报告,报告发给产品或运营的同事,然后……等。

在人工质检体系里,质检员可以直接找到当事坐席,反馈通常当天就能完成。在智能客服质检体系里,一个被发现的问题从标注到真正修复,中间要经过需求排期、知识库编辑、测试验证几个环节,周期少则一两周,多则一两个月。

这期间这个问题还在持续发生,还在持续被用户遇到。如果质检体系没有一套机制来追踪"这个问题上次发现是什么时候,现在有没有改,改完之后有没有验证效果",那发现问题只完成了质检工作的一半,另一半从来没有被做完。

质检表的设计也需要重构。人工质检表的逻辑是"这个坐席做了什么,做没做到规范",是一份行为检查清单。

智能客服质检表的逻辑应该是"这条对话在哪个环节出了问题,根因在哪一层",更接近一份故障诊断记录。两者的填写方式、流转路径和后续处理完全不同,但大多数团队用的还是同一张表,只是改了几个字段。

有一个判断可以用来快速检测现有质检体系是否真的有效:如果把过去三个月质检发现的所有问题列出来,里面有多少条已经在产品侧完成了修复,修复之后同类问题的发生频率有没有下降?

如果这两个数字都说不清楚,那质检工作很可能只是在给问题做登记,而不是在推动问题被解决。登记和解决,差别不小。