小鹏汽车似乎对产品有近乎偏执要求:要在车内创造出一种能「无限接近人类语气」的声音交互系统。
7 月,这套「全新 AI 声音」的小 P 系统将在 P7 部分车型上线。
“去年 1024 之后,小鹏车机智能化有了很大进步,于是我们花费很多精力在小 P 的语音表现上,给大家一个更好的信息传递。”小鹏汽车 AI 产品专家陈思云介绍起全新车载语音。
小鹏产品团队为新声音设立了三大「纲要」:
(1)足够像真人。
(2)角色足够拟人,例如定位成「秘书」、「宠物」或是「女神」。
(3)亲切传达信息,拉进用户距离。
小 P 全新 AI 声音是如何做到的呢?为实现这三条,团队就必须往车机联入一个在线的、更大规模的「神经网络模型」—— 从而实现 HIFI 级别合成语音。
目前,这套神经网络已经为小 P 带来了 2 项肉眼可见的提升:
一、MOS 评分 4.49
经 MOS1 语音质量评测,该声音得分为 4.49,是目前微软 MOS 语音质量评测得分最高的车载智能语音助手。
当然,MOS 评分不能完全完全「神化」。
MOS 最早源于电话的语音质量评价。这项评价标准由 ITU(InternationalTelecommunicationUnion,国际电信联盟简称国际电联)在 1996 年,作为囊括在《P.800: Methods for determination of transmission quality 》中的一个「子标准」沿用至今,字面意思不难看出,这是个围绕「主观」(subjective)—— 也就是人工听觉、人工打分的一项判定方法。
别看 MOS 古老(那时 TTS 还未普及),作为一个成熟、稳定、高度逼近人类听觉体验的评价标准,MOS 的制定最初建立在一套有参考信号的评价体系之上的:评价时,同时需要待测信号和参考信号。相较于无参考评价方案,有参考的客观评价方案更容易做得贴近主观评价体系。
“MOS 体系本身是一个主观评分,在全球最标准化的大会上参加评分的时候,也会要求需要把两个竞品或两个声音加上真人,加上一个非安慰剂的参照系放在一起横向比较。
我们只能比较这几个主观评价中,用户对它们评价的差值,但绝对分值的比较,因为它是一个主观比较,所以在换样本量,或换不同的场景,都会导致分值上的差异。
需要放在同一测试中这个分数才有比较的意义。”陈思云在回答能否用 MOS 评分高低作竞品横评时谈到。“即便无法客观的让小 P 横向对比。但我相信更新后,用户拿小 P 和 Siri 对比,还是有很大区别的。”
二、软硬兼施,打出「情感牌」
从刚才的视频来看,全新小 P 声音饱满程度也有很大提升,再配合 P7 本身的良好的 NVH 性能,我预感这波 HiFi 级高保真音质真的可以在 P7 上发挥出来,成为量产车中排名数一数二的沉浸交互感。
实际上,全新 AI 声音采用 24K 采样技术(现有声音为 16k),各种场景下的声音反馈都被精心调教,用户听到的每句话都细腻生动、充满活力。
“新旧声音对比来听,会明显感受到音质的差距。这个声音不是拼接的,完全采用 AI 训练、生成出来的。”郝超补充道,“业内无论车企还是智能音箱,大家还是在用提前录音的方式,尽可能让语音包更好听,但内容覆盖率不高,所以我们采取这种方式(AI 生成),也算一次大的创新。”
除了这些「硬实力」,全新 AI 语音还有足够「软实力」。
“小 P 会像 Siri 一样调侃么?”,笔者问道。
“全新 AI 声音会有一些情绪上的表达,或者对不同情景、不同语气会有一些彩蛋的埋入,包含像偶尔跟用户进行一些小的调侃,去调剂一下用户整个行程中的娱乐性,这也会有一些小的彩蛋的埋入。”陈思云回答。
而具体有哪些「彩蛋」,还需要 P7 车主一点点挖掘。
除了语音彩蛋,全新小 P 语气包括例如「助理、客服、聊天、温和、亲热、抒情、新闻、严肃、不满、生气、害怕、悲伤、冷静」等 14 种强烈情绪的变换能力,后续版本还会逐步贴合更多场景。
说了这么多优点,但新技术哪有不翻车的。来谈谈笔者对小鹏全新 AI 语音的担忧吧。
首先就是难以应对离线情形。
车辆行驶在偏远地区,没网,或者信号中断,在「有-无」网络之间来回切换,驾驶者肯定对语音质量的高低变换一定是有反应的。
但小鹏的工程师已经想出了对策:在线追求高品质,离线兜底无时延。
“如果遇到「5 公里长的隧道」这类极端网络情况,我们会在本地留一个「小的离线模型」,它的体量不会很大,但保证小 P 在时效性不变差的情况下一定能把声音发出来,比如说导航或者自动驾驶这些播报,两个模型工作准则是一样的。”
按照郝超的说法,这套自研「端云融合多级缓存」,能让车辆预测当下的网络情况,自动改选「在线神经网络引擎」or「离线引擎进行声音合成」,总之就是在信号不佳的情况下,语音播报依然维持高音质。
“通过这个技术,小 P 已做到 97% 超高在线率。”郝超补充道。
最后:
笔者认为,拟人的全新小 P 能够更好传达信息。
回想下,你有没有经历过,当车内导航声被道路噪音掩盖、碰巧路线显示延迟而错过待转路口?
在认知心理学中有个经常被提及的原理:「鸡尾酒会效应」。指的是人类听觉系统有着极其神奇的「专注能力」,即便在嘈杂环境中,仍能将注意力专注于某种「特定声音」,而「无视」掉背景音。
其实,小鹏语音团队做的便是将这个原理「逆」过来:做出一套更好被人类听觉系统分辨的声音。
人的注意力是有限的,一个好的交互系统在设计时就必定要考虑到极端情况下,如何减少人脑的能量消耗,从而达到最好的信息传递效果。期待小 P 早日让车主们享受到这一乐趣。
本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/563/813.htm]