智能客服渠道的质检该怎么做？ - 呼叫中心与客户关系管理委员会

智能客服渠道的质检该怎么做？

来源：时间：2026-04-29

质检团队接手智能客服渠道的时候，通常会做一件很自然的事：把原来用于人工坐席的质检表改一改，删掉几条"服务态度"相关的指标，加上几条"意图识别准确率""关键词命中率"，然后开始抽查对话。

这套做法在头几个月会产生一批数据，数据看起来还不错，于是被当作质检体系稳定运行的证据。

但这里有一个问题从来没有被认真问过：机器人说错了一句话，和坐席说错了一句话，是同一种性质的错误吗？

坐席说错话，原因可能是态度问题、知识缺口、当日状态不好，或者就是理解偏差。质检把这条通话标记为扣分项，然后找坐席复盘，这个闭环是通的——因为改变的对象是一个可以被反馈影响的人。

机器人说错话，原因是知识库内容有误、意图模型训练样本不足、对话流设计没有覆盖这个场景，或者三者都有。质检把这条对话标记为扣分项，然后……然后呢？没有一个具体的人会因为这个扣分去改变行为。这个分数挂在那里，如果没有明确的机制把它转化成产品侧的改动，它就只是一个数字。

这是智能客服质检和人工坐席质检最根本的区别，也是很多质检团队在这件事上做了一年却感觉越来越虚的原因。

人工质检的核心动作是"发现问题，反馈给人，人做出改变"。机器人质检的核心动作应该是"发现问题，定位根因，推动产品/系统改进"。

前者的终点是一次辅导或一份绩效记录，后者的终点是一次知识库更新或一次对话流重构。这两件事在形式上都叫"质检"，但它们是两种完全不同的工作。

把这个区分搞清楚之后，智能客服质检要检查什么，就会变得更具体。

意图识别这件事值得单独说一下。很多质检体系把"意图识别准确率"当作核心指标，这个指标本身没有问题，但它只能告诉你机器人听没听懂用户说的话，不能告诉你机器人听懂之后给的答案对不对。

一个用户说"我要退款"，机器人正确识别了意图，然后给出了一段话术，话术里的退款政策是三个月前的旧版本。意图识别准确率：满分。用户的问题：没有被解决。这两件事同时发生，一点都不矛盾。

真正需要检查的，是对话的服务结果，而不只是对话的技术表现。判断一条机器人对话的质量，核心问题只有一个：用户的诉求，在这段对话里有没有得到处理？

这个判断需要质检员看完整条对话，理解用户在找什么，再对照机器人给出的路径，判断这条路有没有走通。这比打一个"意图识别准确"的勾要复杂得多，但它是唯一真实的评价维度。

在实际操作中，有几类对话特别值得优先抽检。转人工的对话，是最直接的信号源——用户没有从机器人那里得到满意的结果，所以选择了退出。

这部分对话里藏着机器人覆盖不了的场景、回答不了的问题，以及让用户在对话中途产生负面情绪的节点。

重复接入的对话，意味着用户上次的问题没有被解决，这次又来了——如果同一个用户在72小时内针对同一个问题接入了两次，第一次对话基本上是失败的，不管它的质检分数是多少。

还有一类是在对话中途用户明确表达过不满的，这些词往往不是"投诉"这种标准词，是"你到底有没有在听我说话""你就会说这一句是吗"——这类情绪信号需要质检员识别，系统往往不会自动标记。

标注和改版之间的断层，是智能客服质检里最容易被忽视的问题。质检员抽了一批对话，发现了问题，写了一份报告，报告发给产品或运营的同事，然后……等。

在人工质检体系里，质检员可以直接找到当事坐席，反馈通常当天就能完成。在智能客服质检体系里，一个被发现的问题从标注到真正修复，中间要经过需求排期、知识库编辑、测试验证几个环节，周期少则一两周，多则一两个月。

这期间这个问题还在持续发生，还在持续被用户遇到。如果质检体系没有一套机制来追踪"这个问题上次发现是什么时候，现在有没有改，改完之后有没有验证效果"，那发现问题只完成了质检工作的一半，另一半从来没有被做完。

质检表的设计也需要重构。人工质检表的逻辑是"这个坐席做了什么，做没做到规范"，是一份行为检查清单。

智能客服质检表的逻辑应该是"这条对话在哪个环节出了问题，根因在哪一层"，更接近一份故障诊断记录。两者的填写方式、流转路径和后续处理完全不同，但大多数团队用的还是同一张表，只是改了几个字段。

有一个判断可以用来快速检测现有质检体系是否真的有效：如果把过去三个月质检发现的所有问题列出来，里面有多少条已经在产品侧完成了修复，修复之后同类问题的发生频率有没有下降？

如果这两个数字都说不清楚，那质检工作很可能只是在给问题做登记，而不是在推动问题被解决。登记和解决，差别不小。