
美团提出首个语音交互GUI智能体,端到端语音训练能力优于传统文本训练
美团提出首个语音交互GUI智能体,端到端语音训练能力优于传统文本训练只需要动动嘴就可以驱动GUI代理?
来自主题: AI技术研报
6845 点击 2025-06-19 17:07
只需要动动嘴就可以驱动GUI代理?
没想到,文小言接入推理模型的大更新背后,百度还藏了一手“质变”级技术大招???
实现智能、类似人类的端到端语音聊天。
两个多月前那个对标GPT-4o的端到端语音模型,终于开源了。大神Karpathy体验之后表示:nice!
本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。