产业互联网|小鹏汽车的车规级“真”人语音助手,是如何炼成的?( 二 )


第一,应对汽车移动状态下的网络抖动,在保证声音保真率的情况下尽量压缩对流量及硬件性能的消耗,同时还要解决合成语音上比较难的歧义、分词问题 。
为了应对网络抖动,小鹏汽车采取了多级缓存的方法,把好的声音提前进行各级缓存然后下发,尽量减少对网络的依赖 。“比如系统判断前方500米有摄像头,该播报了,但可能在‘前方’两个字播出之后会因为网络抖动导致这句话播不全,那系统会启动语意动态等待 。”郝超说,“等个1-2秒,网络抖动过去,再播报 。虽然多开了两米,但在可接受范围内 。”不过,像“前方右转”等这类特殊情况除外,系统则不会启动动态等待 。
第二个比较大的难点是语音高保真度带来的连锁挑战 。
一般情况下,大部分车载语音系统的语音采样率为16k HZ(一秒钟有1万6千个采样点),量化水平在8比特(每个采样点数据量为8比特) 。而小鹏汽车使用的语音模型在采样率上达到了24k HZ,量化水平为16比特,这也就意味着一秒钟的信息量是几十KB,那么一分钟可能就是几十兆,一小时可能就是接近一个G,一天就是几十G 。不压缩的话,这么大流量的压力是非常大的 。
“除了刚才谈到的多级缓存,云计算在这里也起到了很大的作用 。这些高质量的声音与微软云相结合,在不降低声音质量的情况下,能够实现用户对高保真语音体验上的实时传输 。”丁秉公表示 。
高保真的声音也增加了对整车CPU的资源占用 。因此,在实践过程中,小鹏汽车尽量不占用本地的计算资源,在网络条件好的情况下尽量对在线模型发起请求,而不是依赖本地,尽量平衡单位周期内对CPU的占用 。
另外一个挑战是解决合成语音中歧义的问题 。中文的分词,多音字,数字读法等都有歧义问题 。一个典型的例子是比如“南京市长江大桥”,合成语音可能断句为“南京 市长 江大桥”,这类乌龙在AI合成语音中目前仍然很常见 。“在不同的场景下,受众对歧义的容忍度有很大差别 。因此我们希望针对合成语音的使用场景进行优化,减少歧义对用户体验的影响 。”丁秉公强调 。
比如,还是上文谈到的人工智能播新闻的场景,这个时候AI分词出现错误最严重可能就是对某个句子听不懂,但在车载场景下可能直接影响到车主的车况 。这些都要在车载端做优化,保证车主在开得比较快、噪音比较大的听音环境下也能够听到高保真的声音 。这也是车规级语音同我们日常用的智能手机语音助手、智能音箱助手比较大的不同 。
车载语音“媲美人声”是壁垒还是趋势?技术在产业落地的过程,往往被看作是技术寻找场景的过程 。场景找到了,技术是否高深、前沿便显得没那么重要 。
小鹏汽车的媲美人声的车载语音助手也正是运用了微软的通用语言模型才达到了当前的效果 。但对于使用了通用技术的小鹏来说,小P的炼成是一次前沿技术的探索,还是通用技术落地的其中一环呢?
对于这个问题,郝超的答案更偏向于前者 。“当大家不知道AI能做什么事情的时候,可能认为,找场景更重要 。把现有的这些技术落地到某一个场景,可能就有AI了 。这是因为大家对这个事情理解不深 。”他说,“当对整个车载场景,或者对出行有足够深的理解的话,就会发现这里面有太多太多的问题要解决 。”
郝超认为,智能汽车非常依赖高精尖技术,甚至现在很多技术做不到的事情,他们也希望能尝试通过技术来解决 。也就是说,对于新技术的应用,小鹏汽车的思路是,不是有这样一个技术能用到什么样的场景,而是我们看到这样一个场景,去探索、寻找有没有更好的技术来解决 。

推荐阅读