产业互联网|小鹏汽车的车规级“真”人语音助手,是如何炼成的?

产业互联网|小鹏汽车的车规级“真”人语音助手,是如何炼成的?
文章图片

钛媒体App在小鹏P7试驾现场
【产业互联网|小鹏汽车的车规级“真”人语音助手,是如何炼成的?】如果在你的爱车里,有一款能像人一样表达情绪的智能车载语音助手,它媲美人声,不用反复唤起就能流畅对话,会对你说“好滴”而不是“好的”,这样的语音助手你会心动吗?
不久前,小鹏汽车P7车型进行了一次重要的OTA(Over-The-Air,远程空中下载)系统升级,其中语音助手小P媲美人声的更新,再次拉高了智能汽车语音助手的水平线 。
“耗时十个月上线,这是一次汽车界对车载语音的前沿探索 。”小鹏汽车AI产品高级专家郝超说道 。
对于车载语音来说,“媲美人声”为什么很重要,小P的更新到底高明在什么地方?我们跟郝超以及微软云计算与人工智能事业部产品总监丁秉公聊了聊关于车载语音的那些事儿 。
车载语音“媲美人声”为什么很重要?不知道大家有没有这种感觉,在手机上或者智能音箱上听机器人播新闻,好像总没有真人主播播得痛快;特别是无聊的时候,想跟语音助手逗个乐,三两句话下来,总会无奈地自言自语一句:“它真的好傻啊 。”
在业界,这种同语音助手互动不流畅带来的不适感,可以用“听觉疲劳”来形容 。而相对于家常环境场景下的语音互动,如在长时间开车的场景下,车主很大程度上会放大对听觉疲劳的感知 。换句话说,车主对语音助手语音流畅度、自然度敏感性更高,对车载语音助手更逼近人声的需求也更高 。
“小P升级后,很多车主半夜蹲点儿去车里抢先试听新声音 。”郝超说起小P刚更新时一些车主的反应 。
这与车载语音产品不断追求“媲美人声”的效果,形成了一种默契 。“原来我们可能只追求让大家把声音听懂就行,后来我们认为不仅要听懂,还要像人声一样更加自然,最后我们觉得自然还不够,还想用多情感的声音来代替单调的声音 。”丁秉公表示 。
因此早在2018年,为了让人工智能的声音更自然,微软就已经在神经网络语音合成技术上做了很多工作 。最近两年来,该技术的不断创新使合成声音错误率进一步减少、显著提升了句子韵律的合成质量和语音的高保真度 。
数据显示,经行业公认的、专业评估语音自然度的MOS(Mean Opinion Score平均意见评分)测试,微软AI语音评分4.49分(真人录音得分 4.5分),这证明在音质、发音、说话准确性和清晰度等方面,合成语音已经能够与真人录音样本相媲美 。
这种更自然的合成声音也推动了车载语音场景的应用的落地,小鹏汽车在这个过程中成了那个率先吃螃蟹的人 。
不过需要强调的是,微软提供的神经网络语音合成技术、及其背后的语音模型,都是平台化的可匹配多行业的通用产品,要将这种通用产品与小鹏汽车的特定场景融合,双方还要在“车载”场景上做很多融合 。
“车规级”语音需要克服哪些难点?有人可能会说,车载语音不就是语音交互吗,现在不管是手机还是音箱,但凡带点“智能”,让它“说话”似乎并不是什么难事 。这种质疑并没有什么问题,但仔细想来,就像芯片也有车规级一样,汽车的语音交互系统也在不断追求“车规级”的完美 。
据郝超和丁秉公介绍,车规级语音需要克服的挑战主要有3个:

推荐阅读