A16z 4100万美元领投Mirelo,重磅押注欧洲音频大模型
A16z 4100万美元领投Mirelo,重磅押注欧洲音频大模型欧洲音频公司 Mirelo AI 刚刚拿下 4100 万美元种子轮,由 a16z 与 Index Ventures 领投。他们不是再做一个剪辑工具,而是训练自己的音频模型,主打用户给视频,Mirelo 补上所有声音。自动生成音效与配乐,并把它们精确同步到画面上。
欧洲音频公司 Mirelo AI 刚刚拿下 4100 万美元种子轮,由 a16z 与 Index Ventures 领投。他们不是再做一个剪辑工具,而是训练自己的音频模型,主打用户给视频,Mirelo 补上所有声音。自动生成音效与配乐,并把它们精确同步到画面上。
谷歌发布Gemini 2.5 Flash原生音频模型,不仅能保留语调进行实时语音翻译,更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。
随着 AI 系统越来越强大,人们与机器的交流方式也在发生变化。语音,正在迅速成为默认的交互入口。
AI音效已经进化成这样了吗??
AI 初创公司 Stability AI 发布了名为 Stable Audio Open Small 的“立体声”音频生成 AI 模型,该公司宣称这是市场上速度最快的模型,且效率高到足以在智能手机上运行。
就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。
WaveForms致力于开发音频大模型(LLMs),通过创新的端到端音频处理技术,实现更加实时、类人化且情感智能化的语音交互。与传统语音模型不同,WaveForms的音频模型不是语音转文本再转语音,而是能够直接处理音频,实现更自然的对话和情感互动。
大神Karpathy鼎力推荐,开源版「Her」Moshi再引关注!
Stable Audio Open:开源文本转音频模型。