AI资讯新闻榜单内容搜索-Audio

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

港科大团队提出音频生成统一模型AudioX，只需一个模型，就能从文本、视频、图像等任意模态生成高质量音效和音乐，在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench，并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。

来自主题: AI技术研报

7973 点击 2026-03-09 14:29

小红书，再造一个更有「声」命力的社区

2026 马年注定迎来一个「AI 味」最浓的春节。

来自主题: AI技术研报

10528 点击 2026-02-12 15:34

刚刚，创智+模思发布开源版Sora2，电影级音视频同步生成，打破闭源技术垄断

今天上午，上海创智学院 OpenMOSS 团队联合初创公司模思智能（MOSI），正式发布了端到端音视频生成模型 —— MOVA（MOSS-Video-and-Audio）。

来自主题: AI技术研报

9228 点击 2026-01-30 10:39

真香！刚骂完AI，Linux之父的首个Vibe Coding项目上线

时代变了，就连 Linus Torvalds 现在也氛围编程（Vibe Coding）了。

来自主题: AI资讯

10767 点击 2026-01-13 09:11

真实音频场景，大模型集体挂科！首个原生语音基准MultiChallenge

文本领域的大模型满分选手，换成语音就集体挂科？大模型引以为傲的多轮对话逻辑，在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge，直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示，强如Gemini 3 Pro在真实场景下的通过率也仅过半数，而GPT-4o Audio的表现更是令人大跌眼镜。

来自主题: AI技术研报

10471 点击 2026-01-06 16:46

分割一切、3D重建一切还不够，Meta开源SAM Audio分割一切声音

继 SAM（Segment Anything Model）、SAM 3D 后，Meta 又有了新动作。

来自主题: AI技术研报

9295 点击 2025-12-18 16:54

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

谷歌发布Gemini 2.5 Flash原生音频模型，不仅能保留语调进行实时语音翻译，更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。

来自主题: AI资讯

10458 点击 2025-12-15 11:36

重新定义跨模态生成的流匹配范式，VAFlow让视频「自己发声」

在多模态生成领域，由视频生成音频（Video-to-Audio，V2A）的任务要求模型理解视频语义，还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归（Auto-Regressive）的方式将视频特征作为前缀来逐个生成音频 token，或者以掩码预测（Mask-Prediction）的方式并行地预测音频 token，逐步生成完整音频。

来自主题: AI技术研报

8663 点击 2025-10-31 15:00

清华大学x生数科技：从波形到隐空间，AudioLBM引领音频超分新范式

在这一背景下，清华大学与生数科技（Shengshu AI）团队围绕桥类生成模型与音频超分任务展开系统研究，先后在语音领域顶级会议ICASSP 2025和机器学习顶级会议NeurIPS 2025发表了两项连续成果：

来自主题: AI技术研报

9686 点击 2025-10-13 10:30

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

这一瓶颈如今被打破。小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio，它基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化，并在预训练观察到明显的“涌现”行为。

来自主题: AI资讯

10141 点击 2025-09-21 19:22