AI产品经理需要了解的语音交互评价指标

　　最近，在饭团“AI产品经理大本营”里，有团员提问：如何制定针对自然语言语音交互系统的评价体系？有没有通用的标准？例如在车载中，站在用户角度，从客观，主观角度的评价指标？

　　上周，我在专属微信群内抛出了这个问题，当晚，@胡含、@我偏笑、@艳龙等朋友就分享了不少干货；最近几天，在@飞艳同学的协助整理下，我又补充了一些信息，最终形成这篇文章，以飨大家。

　　语音识别（Automatic Speech Recognition），一般简称ASR，是将声音为文字的过程，相当于人类的耳朵。

　　看纯引擎的识别率，以及不同信噪比状态下的识别率（信噪比模拟不同车速、车窗、空调状态等），还有在线/离线识别的区别。

　　定义：为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换、删除或者插入某些词，这些插入、替换或删除的词的总个数，除以标准的词序列中词的总个数的百分比，即为WER。

　　因为有插入词，所以理论上WER有可能大于100%，但实际中、特别是大样本量的时候，是不可能的，否则就太差了，不可能被商用。

　　站在纯产品体验角度，很多人会以为识别率应该等于“句子识别正确的个数/总的句子个数”，即“识别（正确）率等于96%”这种，实际工作中，这个应该指向“SER（句错误率，Sentence Error Rate）”，即“句子识别错误的个数/总的句子个数”。不过据说在实际工作中，一般句错误率是字错误率的2~3倍，所以可能就不怎么看了。

　　A、语音的需求背景：近场识别时，比如使用语音输入法时，用户可以按住手机上siri的语音按钮，直接说话（结束之后松开）；近场情况下信噪比（Signal to Noise Ratio, SNR）比较高，信号清晰，简单算法也能做到有效可靠。

　　但是在远场识别时，比如在智能音箱场景，用户不能用手接触设备，需要进行语音，相当于叫这个AI（机器人）的名字，引起ta的注意，比如苹果的“Hey Siri”，Google的“OK Google”，亚马逊Echo的“Alexa”等。

　　B、语音的含义：简单来说是“喊名字，引起听者（AI）的注意”。如果语音判断结果是正确的（激活）词，那后续的语音就应该被识别；否则，不进行识别。

　　误率。没叫AI的时候，ta自己跳出来讲话的比率。如果误比较多，特别比如半夜时，智能音箱突然开始唱歌或讲故事，会特别吓人的……

　　词的音节长度。一般技术上要求，最少3个音节，比如“OK Google”和“Alexa”有四个音节，“Hey Siri”有三个音节；国内的智能音箱，比如小雅，词是“小雅小雅”，而不能用“小雅”——如果音节太短，一般误率会比较高。

　　响应时间。之前看过傅盛的文章，说世界上所有的音箱，除了Echo和他们做的小雅智能音箱能达到1.5秒，其他的都在3秒以上。

　　功耗（要低）。看过报道，说iPhone 4s出现Siri，但直到iPhone 6s之后才允许不接电源的情况下直接喊“Hey Siri”进行语音；这是因为有6s上有一颗专门进行语音激活的低功耗芯片，当然算法和硬件要进行配合，算法也要进行优化。

　　自然语言处理（Natural Language Processing），一般简称NLP，通俗理解就是“让计算机能够理解和生类语言”。

　　举个栗子：全班一共30名男生、20名女生。需要机器识别出男生的数量。本次机器一共识别出20名目标对象，其中18名为男性，2名为女性。则

　　模型调优后追求F1值提升，准确率召回率单独下降在一个小区间内，整体F1值的增量也是分区间看（F1值在60%内，与60%以上肯定是不一样的，90%以上可能只追求1%的提升）。

　　P是精准率，R是召回率，Fa是在F1基础上做了赋权处理：Fa=（a^2+1）PR/（a^2P+R）

　　语音合成（Text-To-Speech），一般简称TTS，是将文字为声音（朗读出来），类比于人类的嘴巴。大家在Siri等各种语音助手中听到的声音，都是由TTS来生成的，并不是真人在说话。

　　对工程上的测试：实时率（合成耗时/语音时长），流式分首包、尾包，非流式不考察首包；首包响应时间（用户发出请求到用户到的第一包到达时间）、内存占用、CPU占用、3*24小时crash率等。

　　对话系统（Dialogue System），简单可以理解为Siri或各种Chatbot所能支持的聊天对线、用户任务达成率（表征产品功能是否有用以及功能覆盖度）

　　留存率。虽然是传统的指标，但是能够发现用户有没有形成这样的使用习惯；留存的计算甚至可以精确到每个功能，然后进一步根据功能区做归类，看看用户对哪类任务的接受程度较高，还可以从用户的问句之中分析发出指令的习惯去针对性的优化解析和对话过程；到后面积累的特征多了，评价机制建立起来了，就可以上强化学习；比如：之前百度高考，教考生填报志愿，就是这么弄的；

　　目前对于这类问题，一般是使用人工评估的方式进行。这里的语料，通常不是单个句子，而是分为单轮的问答对或多轮的一个session。一般来讲，评分范围是1~5分：

　　尤其对于生气的情绪检测，这些对话样本是可以挑选出来分析的。比如，有公司会统计语音中有多少是骂人的，以此大概了解用户情绪。还比如，在同花顺手机客户端中，拉到最底下，有个一站式问答功能，用户对它说“怎么登录不上去”和说“怎么老是登录不上去”，返回结果是不一样的——后者，系统检测到负面情绪，会提示转接人工。

AI产品经理需要了解的语音交互评价指标

相关阅读

网友评论 ()条查看

推荐文章更多

热门图文更多

最新文章更多

AI产品经理需要了解的语音交互评价指标

相关阅读

网友评论 ()条 查看

推荐文章更多

热门图文更多

最新文章更多

网友评论 ()条查看