AI资讯新闻榜单内容搜索-语音大模型

Speech LLM 的下一个突破口：你的语音大模型可以是个「带韵律的文本模型」

相信大家都有过这样的体验：同一个系列的模型，使用文本交互的时候，模型就像开启了 “最强大脑”，数学代码等各种复杂推理任务样样精通，可是一旦将其改造成语音对话模型之后，性能就猛烈下降，严重 “降智”，经常会犯很多基本的逻辑错误。

来自主题: AI技术研报

6135 点击 2026-05-28 14:51

刚刚，豆包「成精」了！一夜告别机械感，上亿人手机全量上线

AI交互的「机械感」消失了！今天，豆包甩出原生全双工语音大模型Seeduplex，不仅能边听边说，甚至能听懂你在思考时的「卡壳」，就算环境再吵也不怕，抗干扰能力直接拉满。

来自主题: AI技术研报

10573 点击 2026-04-09 14:48

独家｜VUI Labs宇生月伴完成数千万元天使+轮融资，同创伟业领投，打造行业领先的情感语音大模型和多模态Agent

VUI Labs（宇生月伴）宣布完成数千万元天使+轮融资。本轮投资由同创伟业领投、老股东靖亚资本、小苗朗程持续加注，心流资本FlowCapital担任长期财务顾问。公司半年累计获得近亿元投资，所募资金

来自主题: AI资讯

9892 点击 2026-02-28 10:59

大模型真听懂了吗？最全综合性口语感知与推理基准 | ICLR'26

随着多模态大模型能力不断扩展，语音大模型(SpeechLLMs) 已从语音识别走向复杂语音交互。然而，当模型逐渐进入真实口语交互场景，一个更基础的问题浮现出来：我们是否真正定义清楚了「语音理解」的能力边界？

来自主题: AI技术研报

10830 点击 2026-02-24 15:35

小红书发布FireRedChat：首个可私有化部署的全双工大模型语音交互系统

小红书智创音频团队推出业内首个支持私有化部署的全双工大模型语音交互系统 FireRedChat，自研流式 pVAD 与 EoT 让语音交互更加自然，首发级联与半级联两套实现，端到端时延逼近工业级应用。

来自主题: AI技术研报

9667 点击 2025-10-03 11:44

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

这一瓶颈如今被打破。小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio，它基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化，并在预训练观察到明显的“涌现”行为。

来自主题: AI资讯

10068 点击 2025-09-21 19:22

LLaSO 横空出世：逻辑智能推出全球首个完全开源语音大模型框架，定义 LSLM 研究新基准

北京深度逻辑智能科技有限公司推出了 LLaSO—— 首个完全开放、端到端的语音语言模型研究框架。LLaSO 旨在为整个社区提供一个统一、透明且可复现的基础设施，其贡献是 “全家桶” 式的，包含了一整套开源的数据、基准和模型，希望以此加速 LSLM 领域的社区驱动式创新。

来自主题: AI技术研报

8436 点击 2025-09-15 08:39

独家｜上交投资的首家语音大模型宇生月伴完成数千万元融资，加速走向全球，技术指标全面超越11Labs

情感语音交互模型初创公司宇生月伴近日完成新一轮融资，由靖亚资本和小苗朗程领投，菡源资产（上海交大母基金）跟投，心流资本FlowCapital担任长期财务顾问。本轮融资将用于语音模型的持续优化、产品矩阵拓展及国际化商业落地。作为国内首家聚焦“情感语音交互”的模型公司，宇生月伴正重新定义AI时代的语音交互范式。

来自主题: AI资讯

10650 点击 2025-08-19 22:13

完全透明开源的共情语音大模型，三阶段训练，四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S

GPT-4o、Gemini这些顶级语音模型虽然展现了惊人的共情对话能力，但它们的技术体系完全闭源。

来自主题: AI技术研报

9801 点击 2025-07-16 16:30

首个全面梳理语音大模型发展脉络的权威综述，入选ACL 2025主会

由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主会议接收！这是该领域首个全面系统的综述，为语音 AI 的未来发展指明了方向。

来自主题: AI技术研报

8927 点击 2025-06-17 16:45