AI资讯新闻榜单内容搜索-音频生成

实测豆包音频生成模型：语音模型的Seedance2.0时刻来了！

火山引擎今天上线了全新的语音模型—— 豆包音频生成模型 1.0（Seed-Audio 1.0）。

来自主题: AI产品测评

8017 点击 2026-06-24 10:29

物理 AI 的早期答案，可能先出现在工厂里

ElevenLabs的声音克隆和长文本音频生成质量确实很好，但也太贵了。

来自主题: AI资讯

6691 点击 2026-05-29 10:10

5k星星！无GPU都能跑的「开源声音克隆工具」，646种语言，多系统支持一键安装

ElevenLabs的声音克隆和长文本音频生成质量确实很好，但也太贵了。

来自主题: AI资讯

6041 点击 2026-05-29 10:10

反直觉！扩散模型「跨界」复原: 只用卧室模型，竟能复原人脸

自扩散模型提出以来，它不仅在图像、视频和音频生成方面取得了优异效果，也正逐渐成为解决图像复原、超分辨率、去模糊等逆问题的重要工具。

来自主题: AI技术研报

9969 点击 2026-03-10 09:29

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

港科大团队提出音频生成统一模型AudioX，只需一个模型，就能从文本、视频、图像等任意模态生成高质量音效和音乐，在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench，并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。

来自主题: AI技术研报

7931 点击 2026-03-09 14:29

马斯克视频生成模型首次交卷！电影级运镜+音效，免费可玩

xAI“迄今为止最强大的视频音频生成模型”Grok Imagine 1.0版本，正式全面上线。

来自主题: AI资讯

8504 点击 2026-02-04 17:31

硬刚Sora 2，马斯克发视频大模型，免费可玩，前英伟达何宜晖参与

今天凌晨，马斯克的大模型独角兽xAI祭出最新视频生成模型Imagine v0.9，免费向所有用户开放。一周前，OpenAI发布了旗舰视频和音频生成模型Sora 2，此次更新或许是马斯克对Sora 2的直接回应。

来自主题: AI资讯

9392 点击 2025-10-08 22:35

ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法

近年来，扩散模型（Diffusion Models）凭借出色的生成质量，迅速成为图像、视频、语音、3D 内容等生成任务中的主流技术。从文本生成图像（如 Stable Diffusion），到高质量人脸合成、音频生成，再到三维形状建模，扩散模型正在广泛应用于游戏、虚拟现实、数字内容创作、广告设计、医学影像以及新兴的 AI 原生生产工具中。

来自主题: AI技术研报

8556 点击 2025-08-03 13:04

AI音效90秒长时可控生成！“狼嚎2秒，蟋蟀鸣8秒”精准搞定！清华&生数科技新研究入选ACM MM 2025

文生音频系统最新突破，实现精确时间控制与90秒长时音频生成！

来自主题: AI资讯

10240 点击 2025-07-23 15:18

速递｜Stability AI联手Arm推出最快手机端免云模型，8秒生成11秒音频

AI 初创公司 Stability AI 发布了名为 Stable Audio Open Small 的“立体声”音频生成 AI 模型，该公司宣称这是市场上速度最快的模型，且效率高到足以在智能手机上运行。

来自主题: AI资讯

10440 点击 2025-05-15 14:14