在多哈网络峰会上,ElevenLabs联合创始人兼首席执行官马蒂·斯坦尼谢夫斯基向TechCrunch透露,语音正逐渐成为人工智能领域的关键交互界面。随着技术突破文本与屏幕的限制,语音交互有望成为人类与机器沟通的主流方式。他指出,当前语音模型已不再局限于模仿人类语音的语调和情感,而是开始与大语言模型的推理能力深度融合,这种变革正在重塑人机交互的形态。
斯坦尼谢夫斯基描绘了一个未来场景:人们将减少对手机屏幕的依赖,通过语音指令与周围环境中的智能设备无缝互动。这一愿景正推动ElevenLabs完成5亿美元融资,公司估值跃升至110亿美元。该趋势在科技行业引发连锁反应,OpenAI、谷歌等巨头均将语音技术列为下一代模型的核心方向,苹果则通过收购Q.ai等企业布局语音相关的持续在线功能。
随着人工智能向可穿戴设备、汽车等新硬件领域渗透,语音交互正从辅助功能升级为控制中枢。Iconiq Capital合伙人赛斯·皮埃尔庞在峰会上表示,尽管屏幕在娱乐领域仍具价值,但键盘等传统输入方式已显落后。他预测,随着AI系统智能化程度提升,交互模式将转向主动响应,模型通过上下文理解和预设规则减少用户提示需求。
斯坦尼谢夫斯基进一步解释,未来的语音系统将具备持续记忆能力,通过积累用户习惯和场景数据实现更自然的交互。这种转变促使ElevenLabs调整技术架构,从纯云端处理转向混合模式,以支持耳机等可穿戴设备的实时语音交互。目前,该公司已与meta达成合作,将其语音技术应用于Instagram和Horizon Worlds等平台,并表达了对Ray-Ban智能眼镜项目的合作兴趣。
技术普及的同时,隐私风险成为焦点议题。当语音系统持续运行并嵌入日常硬件时,用户数据收集范围可能大幅扩大。批评者指出,这类系统在靠近用户生活场景时,存在过度存储个人信息的隐患,而谷歌等企业此前已因数据滥用问题受到质疑。如何在便利性与隐私保护间取得平衡,将成为语音AI发展的关键挑战。
针对技术特性,ElevenLabs的语音模型通过整合情感表达与逻辑推理能力,实现了交互真实性的突破。用户无需逐字下达指令,系统可根据历史对话和当前场景推断需求。这种进化不仅改变了设备使用方式,更预示着人工智能从工具向智能伙伴的角色转变。随着混合计算架构的推进,语音交互的响应速度和可靠性将进一步提升,为物联网时代奠定基础。