「做个人吧」，车载语音交互的终极奥义？

作者：米其林

一台智能座舱的标配是什么？触屏？HUD？还是语音助手？

也许在完全自动驾驶实现的未来，汽车不需要人来驾驶，座舱里不再需要触屏、不再需要语音，但是在目前这个「智能化有余，自动化未满」的阶段，我们不得不承认，语音成了当前解决座舱内交互的最优解，也成了车企在座舱里的发力点。

从最初无形的、机械式的语音；到 NOMI 可视化、圆乎乎的拟人形象；再到语音助手们亲切的、「小字辈」的名字，语音助手在拟人的道路上一路进化。

到了 2021 年，语音助手的拟人化已经从外型人设，进阶到了内在：年初 BMW 推出的新一代 iDrive 8.0 采用了温柔知性的声音，来主打主动式情感交互；前不久，小鹏也推出了全新的语音系统小 P，用温柔的小姐姐声音，来主打「更拟人」的感情牌。

语音交互拟人化、主动化，是锦上添花的卖点，还是智能化的必然趋势？

用户和汽车，都需要拟人化的「它」

语音助手变得越来越拟人化，其实是车企和用户的双重选择，也是情感和功能的双重选择。

座舱内为什么需要语音助手？除了与用户交互、沟通这个直接需求外，随着性能指标的提升，语音交互在座舱里的作用也越来越像一个平台。

通过这个平台，用户可以调用座舱里的软件功能，打开地图导航，播放音乐，搜索各种信息；也可以通过这个平台控制车内的硬件，开关车窗，控制空调，调节座椅…… 当物理按键逐渐在座舱里消失，车内功能也需要一个具象化的调度载体。

在刚刚 OTA 升级语音系统的小鹏 P7 上，我们在副驾驶对着小 P 说「我有点热」，语音助手会将副驾的空调温度降低，风量调大；在主驾驶位说「导航到 xxx，地图比例一公里」，语音助手会自动导航，将地图比例放大到一公里…… 这时候的语音助手，就像一个拟人化的大管家，来调动软件、硬件的功能。

除了作为平台这个功能属性外，拟人化的语音也能给交互带来更亲切的情感体验。

根据微软 MOS 语音测评的衡量标准：一个声音越接近人声，就越容易让人产生舒适感。

在座舱这样一个半封闭空间里，会面临长途驾驶、高速驾驶的无聊、疲惫，也会因为路况拥堵产生负面情绪，舒适的声音不仅能完成功能指令，也能起到安抚情绪、缓解疲劳的作用。目前市场上的语音系统，采用的或是软萌的卡通声音，或是温柔的女性声音，也处于这方面的考虑。

小鹏的小 P 语音系统在每次指令结束后，最为反馈，会卖萌似的回复「好哒」「好滴」「欧克」，也是为了避免机械式的单一回复，让座舱里的对话没那么无聊。

提到语音助手，让人想到了电影《Her》中，男主被声线迷人、幽默风趣的人工智能萨曼莎抚慰、救赎，进而产生爱情。与语音系统谈恋爱似乎离我们很遥远，不过一个如真人般体贴的语音，令人愉悦，甚至对声音产生依赖，并不是不可想象的事儿。

也许未来，汽车的价值不只体现在品牌、造型、速度与驾驶体验，也来自于座舱内语音助手带来的亲切感。「这是个老熟人的声音」，会成为买车时的一个加分项。

比声音像人更重要的，是性能拟人

既然真人化的声音能让人产生舒适感，为什么不从一开始就把语音拟人化呢？

如果只是追求语音像真人，技术上并不是无法实现。在我们常用的手机导航 App 里，明星们的导航语音就是通过关键词采集后，利用 TTS 语音合成技术来实现，甚至可以达到以假乱真的地步。不过导航 App 的语音只是单方面的输出，并不是双向的交互，不需要识别语音指令，也不需要接收指令后执行任务、给出反馈的步骤。

座舱内的语音交互就复杂的多了。

首先，语音系统需要从用户复杂的话语中，迅速、准确地提炼出指令关键词，正确接受指令；同时，需要语音系统还需要车内的软硬件功能打通，把接受的指令准确无误的传达到其他功能区，实现跨软件、甚至跨域的功能调用；最后，才需要语音用真人化的声音来反馈用户。三者相互配合，才能保证行车过程安全，交互体验顺畅。

对于同样的语音调整座椅指令，在汽车停止时，我们对小 P 说「放倒主驾座椅」，可以自动放倒主驾座椅；而当车辆开始行驶时，系统会拒绝执行，禁止开车时自动调整座椅。这样，可以避免开车时座椅突然放倒带来的危险。

就算排除了安全隐患，如果前两项任务做的不好，只有声音的拟人化，也会在体验上出现「反噬」效果。

宾夕法尼亚大学媒体效果研究实验室曾经做过一个实验，他们把智能语音客服分类，一类标注上机器人客服，一类假装成真人客服。让志愿者在不知情的情况下与客服沟通、咨询，然后主观打分。同样的沟通过程，志愿者给机器人客服打出 80 分，而假装成真人的客服只得到 60 分。

原因很简单，当语音系统伪装成了真人，志愿者潜意识里就会用真人的标准来评价它，如果语音助手不能提供真人化的功能服务，反而会收获「差评」。

所以，为了做好用户对语音系统的「期待值管理」，拟人化语音要搭配「拟人化」的性能一起使用。

不论是宝马 iDrive 8.0，还是小鹏最新的小 P，推出拟人化语音，基于深度神经网络来提升语音逼真感，同时也提搭配了连续对话、多轮对话、自然语音识别、可见即可说，甚至语音与摄像头、触屏等其他交互模式配合的多模态语音模式，让语音在听起来像人的同时，也能名副其实。

语音拟人路上的路障

随着智能化程度提高，语音慢慢从冰冷的机械化变得拟人化，但是要从拟人化变得温暖有感情，还需要迈过几道门槛。

比如，面对生活中常出现的方言、每个用户不同的用词习惯，语音系统既要通过深度学习来掌握语言指令的共性和特征，也需要一个聪明的「大脑」，能根据用户自己的习惯来进一步学习个体行为，满足个性化需求。

在小鹏小 P 系统的体验中，就遇到了在播放视频时，说「取消全屏」，系统直接帮我关闭了中控屏幕的情况。看来语音助手要更懂事儿，还需要更多的磨合。

比如，为了让语音交互更主动、更精确，语音需要联手座舱内的传感器和其他交互方式，用多模态交互的方式来察言观色，提供更周到的交互体验。

在宝马 iDrive 8.0 中，就预告了语音系统与车内摄像头配合，通过捕捉用户的表情来进一步精确指令，让语音系统听得懂用户的弦外之音。

当然，当语音助手「真人化」到一定程度，就像逼真的 AI 换脸技术有可能被用到灰色地带的潜在风险一样，关于人工智能伦理和安全性的探讨也会成为一个不得不考虑的问题。

写在最后

语音助手的拟人化，在给用户提供声音抚慰的同时，更重要的是带来全场景的服务。

声音只是载体，交互才是本质。未来，当语音助手能够无微不至地帮我调节座舱环境、规划行程、安排活动，甚至能读出我未说出口的指令时，也许它也能读懂我在长途的高速行驶时，想来段郭德纲单口相声版的语音助手。

用户和汽车，都需要拟人化的「它」

比声音像人更重要的，是性能拟人

语音拟人路上的路障

写在最后

请截图后在微信扫码参与互动