输入“一头长发”可生成端庄甜美嗓音，“讯飞超脑2030”将开放500个虚拟合成声音-同城58网网

想足不出户游览祖国大好河山？与表情丰富、情感细腻的虚拟人对话，无需穿戴设备就能“打破”空间界限，“说走就走”带你“瞬移”到旅游景点，目及之处皆是美景、远观近瞧随心所欲，开启一场身临其境的沉浸式“云旅游”。

这个AI能力“硬核”的虚拟导游，集成了“讯飞超脑2030计划” 的多模感知、多维表达、深度理解等多项前沿技术，让真人和虚拟人可以非常自然地“穿越”不同场景对话，给人机交互带来全新的沉浸式体验，在安徽合肥体育中心就能现场体验。

在日前举行的2022科大讯飞全球1024开发者节上，科大讯飞AI研究院副院长高建清以“AI新纪元，讯飞超脑2030”为主题，解密“讯飞超脑2030计划”阶段性技术突破，一大波“预演未来”的创新应用将走入生活，让AI惠及每个人。

2022年伊始，科大讯飞正式发布“讯飞超脑2030计划”，要让人工智能“懂知识、善学习、能进化”，让机器人走进每一个家庭。计划的核心，是以价值创造为根本，通过AI技术持续的核心源头技术创新和系统性创新，让机器远不止具备“你问我答”的基础智能，还拥有更强的交互、运动能力，以解决未来社会重大刚需命题。

高建清表示，实现“讯飞超脑2030计划”，要突破人工智能共性基础算法，攻克多模态感知、多维表达、认知智能、运动智能等核心技术，也要研究软硬一体的机器人关键技术。此外，要探索虚拟人交互、机器人等方面的示范应用。

“无监督学习”新突破，“AI超脑”更懂知识

“支撑‘讯飞超脑2030计划’的发展，有两个关键算法亟待突破，无监督学习和知识推理。”高建清说，前者要实现实用化、场景化的预训练技术，后者要构建基于知识检索、决策以及融合的推理系统。

科大讯飞设计了基于无监督学习的预训练框架，并创新使用了少量有监督数据进行优化，大幅提升训练效率。

针对多模语音识别、情感识别等多模态任务，全新的预训练框架对音频、人脸等不同模态的输入“一视同仁”，利用其中内容、表情及身份等信息的关联性进行融合，可设计出不同的训练目标。而少量有监督数据构建码本，让训练机时下降八成，实现了实用化预训练。在无监督学习的预训练算法框架下，讯飞开放了轻量化的中文语音、中英文多模态预训练模型，高建清说，“预训练模型支持语音识别、声纹识别、情感识别、多模态语音识别等多个任务，参数量远远少于业界公开的模型，但效果却达到了业界最优。”

在知识推理方面，以回答“面包在低温下会马上发霉吗”为例，机器要理解“低温变质慢”等常识，在引入海量知识的基础上，要用预训练模型进行知识重要性排序，也要融合知识与问题进行推理，才能与人畅聊“面包变质的二三事”。

此外，科大讯飞还探索将神经网络与符号推理相结合，实现了推理过程的可解释性。应用于小学平面几何题上，这个推理系统让AI答题的正确率从完全不可用，提升到了90%的水平，显著优于传统推理系统。

“唇形+语音”多模态感知，“唤醒”人机交互新模式

环境太吵、人声太多，语音交互怎么办？在“讯飞超脑2030计划”中，科大讯飞用“唇形+语音”的多模态语音增强技术，唤醒智能语音交互新模式。

“机器想更自然地与人类进行交互，需要通过听觉、视觉、语义以及各种传感器的组合去获取更多的有用信息，AI感知方式必然要从单模态发展到多模态，逐步拟人化。”高建清表示。

继“语音识别在多人讨论场景下效果做到70%”“多点噪声干扰场景做到了可用”之后，今年，科大讯飞挑战商场、医院、地铁等复杂场景，提出了全新的多模态语音增强与识别框架。结合视频信息输入，新技术可以利用人脸、唇形、语音等多模态信息的互补，将主说话人的干净人声从嘈杂背景环境中分离出来，显著提升开放场景的识别效果。

一个典型的场景是，当你在嘈杂的环境中通话，旁边其他人也在说话，搭载了多模感知技术的应用系统只“听”到你的声音，不受旁边嘈杂音干扰，从而非常顺利地完成沟通。

此外，科大讯飞还提出基于多元语义评价的“语音识别一体化”框架，在语音输入过程中，通过“语义纠错+语音识别”联合优化来提升语音识别的可懂度。“这一方案，从用户主观理解度层面有了极大改善，是真正站在用户体验的角度优化系统的一种方法”，高建清表示，这个算法主要解决“语音识别准确率高，但用户体验不好”的现实问题。

多情感多风格语音合成，虚拟人有温度有个性

如何让机器的声音媲美人类？这是AIGC领域需求量大、技术门槛高的难题。

高建清分享了科大讯飞在语音合成技术领域的新突破——多风格多情感合成系统SMART-TTS，语音合成从简单的信息播报“变身”具备喜怒哀乐情感的语音助手。

“系统充分利用了文本和语音的‘无监督预训练’，实现了从文本到声学特征、再到语音的端到端建模。”高建清介绍，SMART-TTS系统可提供“高兴、抱歉、撒娇、严肃、悲伤、困惑、害怕、鼓励、生气、安慰、宠溺”等11种情感，每种情感有20档强弱度不同的调节能力；也能提供声音的创造能力，如停顿、重音、语速等，可以根据自己喜好调节，真正实现了合成系统媲美具备个性化特点的真人表达能力。

现场播放的视频展示了SMART-TTS的多风格多情感语音合成能力：当你漫步林荫路，TA可以用字正腔圆的“播音腔”为你读新闻；当你结束一天工作准备入睡，TA可以轻声细语读为你散文；当你驱车去公司上班，TA可以用你最喜欢的歌手声音告诉你走哪条路不堵车；当你和家人一起观看纪录片，TA可以为纪录片不同人物配音。人机交互表达自然、情感饱满。目前，讯飞有声APP和讯飞开放平台都开放了SMART-TTS语音合成系统，开发者可以在讯飞有声直接下载体验，或在开放平台进行调用。

同样隶属于AIGC范畴，在声音和虚拟形象生成技术方面，科大讯飞实现了语义可控的声音、形象生成，语义驱动的情感、动作表达。比如：你输入“一头长发”，系统智能生成温柔大方的女性形象，声音端庄又不失甜美；输入“英俊潇洒”，生成有一些商务范的男生形象，声音略带磁性。

此外，讯飞还实现了语音语义驱动的动作合成，通过对语音节奏、韵律体会和语义理解，虚拟人可以随时、流畅地切换动作，拥有更加自然的肢体语言。“与传统动作库相比，这套语义驱动的系统在动作拟人度及契合度方面，有明显的效果提升。”高建清表示。

创新交互系统认知技术，AI对话“滔滔不绝”

想让AI告诉你《独行月球》这部电影讲什么？没问题！今年，科大讯飞在交互系统的认知关键技术取得突破性进展，今年以来，依托科大讯飞建设的认知智能国家重点实验室相关团队在认知智能技术突破方面夺得3项国际冠军——在常识推理挑战赛CommonsenseQA 2.0中刷新机器常识推理水平世界纪录，在科学常识推理挑战赛OpenBookQA中以准确率94.2%的绝对优势夺冠，在常识推理挑战赛QASC中以多模型准确率93.48%、单模型准确率92.07%夺冠，后两项比赛更是超越人类平均水平。

随着核心源头技术创新和系统性创新的持续突破，AI拥有更加“智慧”的语义理解和对话生成能力。“好的人机交互系统，在开放式的场景下要具备深度理解能力，并能了解交互对象从而发起主动的对话。”高建清说，围绕认知智能技术，讯飞实现了于语义图网络的开放场景语义理解，基于事理图谱的对话管理，基于知识学习的可控对话生成。

其中，面向开放世界的基于图表示的深度语义理解体系，增加了关系预测模块，形成信息丰富的语义完备的语义表示图，并将要素和关系都进行具体化，可以更精准的理解用户的意图，从而更准确回答用户问题，解决了AI对开放问题无能为力的痛点。目前，讯飞定义了1517个意图、近2000个事件，“通过这个框架的提出，我们在深度语义理解技术上又迈进了一大步。”

技术“立地”专业领域，用AI解决社会刚需命题

会上，高建清还分享了“讯飞超脑2030计划”的技术应用。

除了文章开头提到的沉浸式虚拟导游外，讯飞基于多模态交互、以及医疗认知技术，研发了一套抑郁症定量筛查系统。“可模拟心理医生的问诊思路进行交互设计，用户通过与机器聊天的方式即可初步实现病情的定量评估，筛查效果达到91.2%，超过业界最好的水平。”

目前，这一系统已经在北京安定医院等医疗机构进行了试点应用。“未来，基于定量筛查基础能力，我们将研发抑郁症筛查平台，向更多的学校推广，助力青少年的心理成长。”高建清表示。

作为“讯飞超脑2030计划”的阶段性成果，今年讯飞打造了多款专业虚拟人，分别用于客服、助理、招聘、财务、法务等行业的工作，他们都具有一个共同的特点——丰富的专业知识。通过深入学习行业知识，讯飞定制研发了多行业交互大脑，目前已为金融、电信、媒体等多行业提供专业虚拟人解决方案，为“数字经济”服务。

作者：沈湫莎

图片：主办方提供

*文汇独家稿件，转载请注明出处。