AI资讯新闻榜单内容搜索-语音模型

百万围观、HuggingFace多模态登顶，华人团队FlashLabs开源语音模型Chroma 1.0

近期，FlashLabs 发布并开源了其实时语音模型 Chroma 1.0，其定位为全球首个开源的端到端语音到语音模型。Chroma 1.0 发布之后，便在社媒爆火，吸引了大量的关注。X 上的官推帖子已经突破了百万浏览量。

来自主题: AI资讯

9535 点击 2026-01-23 16:25

击败GPT、Gemini，复旦×创智孵化创业团队「模思智能」，语音模型上新了

近日，由复旦邱锡鹏担任首席科学家的模思智能发布了多说话人自动语音识别（ASR）模型 MOSS-Transcribe-Diarize，不但可以语音转文字，还可以将音频片段与对话中不同的说话者关联起来，性能超过了 GPT-4o、Gemini、豆包等一众模型。

来自主题: AI资讯

9758 点击 2026-01-21 12:05

获腾讯青睐、拿下上亿美元融资，语音模型们又进化？

AI 语音模型测试第三弹。

来自主题: AI资讯

11188 点击 2026-01-08 08:40

语音模型公司做AI眼镜，拿下了红杉领投的2.5亿美元？

TechCrunch 报道，之前一直以 AI 语音初创公司示人的 Sesame，完成了 2.5 亿美元的 B 轮融资，投资方包括红杉资本、Spark Capital 及其他未公开的投资者。随后，Sesame 创始人 Brendan Iribe 也在个人社媒账号上发帖，证实该消息。

来自主题: AI资讯

10956 点击 2025-10-23 22:38

即梦悄悄上线数字人1.5，多人群演、听声变脸，还能跑会跳

数字人这赛道也越来越卷了，大模型可以写剧本，语音模型可以配出百变语气，当我越来越不满足于只是把口型对上这件事之后，那这个只会坐着、不能走路、表情都是提前预设好的、台词数字人，会如何进化？

来自主题: AI资讯

10030 点击 2025-09-30 15:55

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

这一瓶颈如今被打破。小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio，它基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化，并在预训练观察到明显的“涌现”行为。

来自主题: AI资讯

10069 点击 2025-09-21 19:22

B站出海的强有力支柱：最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代

最近在 B 站上，你是否也刷到过一些 “魔性” 又神奇的 AI 视频？比如英文版《甄嬛传》、坦克飞天、曹操大战孙悟空…… 这些作品不仅完美复现了原角色的音色，连情感和韵律都做到了高度还原！更让人惊讶的是，它们居然全都是靠 AI 生成的！

来自主题: AI技术研报

8933 点击 2025-09-18 15:54

突发！微软与OpenAI同日开火：语音之战+通用大模型，AI霸权决战打响

微软紧跟OpenAI的节奏，在同一天也亲自下场发布了微软自研的两个大模型：语音模型MAI-Voice-1和通用模型MAI-1-preview。对于这位老大哥，亲自下场做的第一个AI大模型，效果究竟怎么样？

来自主题: AI资讯

9939 点击 2025-08-29 16:44

今夜，语音模型第一次超越人类！OpenAI再现Her时刻，95后华人研究员坐镇

OpenAI凌晨发布最新生产级别语音模型和API。Realtime API实现语音直接处理，支持图像输入、远程MCP服务器与SIP打电话，极大简化语音智能体构建；而新一代语音到语音模型gpt-realtime，在音质、理解力、指令遵循和函数调用上全面提升，语音几乎媲美真人，还能多语种切换与细腻表达。

来自主题: AI资讯

9726 点击 2025-08-29 14:20

独家｜上交投资的首家语音大模型宇生月伴完成数千万元融资，加速走向全球，技术指标全面超越11Labs

情感语音交互模型初创公司宇生月伴近日完成新一轮融资，由靖亚资本和小苗朗程领投，菡源资产（上海交大母基金）跟投，心流资本FlowCapital担任长期财务顾问。本轮融资将用于语音模型的持续优化、产品矩阵拓展及国际化商业落地。作为国内首家聚焦“情感语音交互”的模型公司，宇生月伴正重新定义AI时代的语音交互范式。

来自主题: AI资讯

10652 点击 2025-08-19 22:13