当AI学会“察言观色”：科大讯飞破解多人交互世界级难题

“它不仅听懂了我说什么，还知道我没说出口的那些话。”在2025年科大讯飞全球1024开发者节现场，一位体验者这样描述与数字人“小飞”对话后的感受。这场看似简单的人机对话背后，是人工智能国家队在多模态交互领域攻克的一系列技术难关。

多人场景：AI交互的“珠穆朗玛峰”

长期以来，多人场景下的智能交互被视为行业公认的技术难题。当多个人同时在场时，AI如何判断谁在跟自己说话？如何区分用户之间的私聊与对AI的指令？何时该主动回应，何时该保持沉默？

这些对人类而言轻而易举的社交判断，却是横亘在AI面前的技术鸿沟。科大讯飞依托认知智能国家重点实验室的研究积累，创新提出多模态语音增强技术方案，融合语音、人脸、姿态等多维信息，结合说话人站位进行精准识别。系统不仅能在5米范围、0dB信噪比的嘈杂环境中准确识别语音，更能智能判断交互意图，做到既不“抢答”也不“乱答”。

全国产算力底座：自主可控的技术根基

在当前国际科技竞争日趋激烈的背景下，核心技术的自主可控显得尤为重要。据了解，科大讯飞此次展示的超拟人多模态交互系统完全基于全国产算力平台构建，从底层芯片到上层算法实现了全栈自主可控。

作为国家新一代人工智能开放创新平台的承建单位，科大讯飞始终将技术自主创新作为发展根基。语音及语言信息处理国家工程研究中心的持续投入，为这些前沿技术突破提供了坚实支撑。讯飞星火大模型自2023年发布至今，已完成多轮迭代，多模态理解能力跻身行业第一梯队。

从“工具”到“伙伴”：情感计算重新定义人机关系

技术突破的更深层意义，在于重新定义人与AI的关系。传统AI交互更像是使用工具——输入指令、获取结果。而科大讯飞正在打造的超拟人交互，更接近于与一位善解人意的朋友对话。

多情感语音合成技术让数字人能够感知对话者的情绪起伏，并给出恰当的情感回应；个性化记忆系统通过分层式动态记忆体架构，让AI记住每位用户的习惯与偏好；视线跟随技术使数字人能够像真人一样注视交流对象，增强临场感与真实感。

“我们希望AI不只是冷冰冰的助手，而是能够提供情感价值的陪伴者。”科大讯飞技术团队表示，超拟人交互的终极目标是让技术真正服务于人的情感需求。

万物智联时代的交互新标准

2024年10月，科大讯飞重新定义了万物智联时代的多模AIUI交互标准。在远场高噪、全双工、多语种多方言等基础能力之上，新增超拟人和个性化能力，将交互形态从单一语音拓展至音视频流的实时多模交互。

业内人士分析，随着智能家居、服务机器人、车载系统等场景的普及，超拟人多模态交互将成为AI产品的核心竞争力。科大讯飞作为大模型国家队的重要力量，正在为行业树立新的技术标杆。

从实验室到千家万户，从技术突破到场景落地，人工智能正在以前所未有的速度融入日常生活。而那个能够“察言观色”、真正理解你的AI伙伴，或许比我们想象的更近。