
全球第一再升级!MiniMax Speech 2.5上线:多语种表现力更强,音色复刻更“像”
全球第一再升级!MiniMax Speech 2.5上线:多语种表现力更强,音色复刻更“像”今天,MiniMax发布新一代语音生成模型Speech 2.5,再次刷新全球最强语音模型的上限。
今天,MiniMax发布新一代语音生成模型Speech 2.5,再次刷新全球最强语音模型的上限。
GPT-4o、Gemini这些顶级语音模型虽然展现了惊人的共情对话能力,但它们的技术体系完全闭源。
最近一个「泄露」的文本转语音模型演示版本在 Reddit 上火了。这个「泄露」的演示视频被网友贴出来后,评论区一片惊呼。
马斯克xAI联合Scale AI训练语音模型,提升自然对话与安全管控。6月6日消息,据媒体获取的文件显示,埃隆·马斯克旗下的人工智能公司xAI正利用一系列问题训练其AI语音模型
2 月份,我们在《AI 语音,真的有感情了?》选题中,选取了知名影视剧《甄嬛传》中的片段来测试 4 款 AI 语音合成模型在情感表达上的表现。当时的结论是,AI 语音模型们的表现力依然不足,仍有待加强。
MiniMax即将发布代号M+的文本推理模型,其表现将影响公司未来竞争力。面对DeepSeek R1的冲击,MiniMax采取国内C端不接入、海外接入的策略,并推出类Manus产品MiniMax Agent。公司通过品牌拆分(海螺AI更名)、纯API商业模式拓展市场,语音模型商业化效果显著,但未进入“基模五强”名单。新推理模型或成其保持行业地位的关键。
国产大模型进步的速度早已大大超出了人们的预期。年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷信」国外大模型。
两名没有高度专业 AI 知识的本科生表示,他们已经创建了一个公开可用的 AI 模型,可以生成类似于 Google 的 NotebookLM 的播客风格的剪辑。
开源语音模型Orpheus让LLM涌现出人类情感!在A100 40GB显卡上,30亿参数模型的流式推理速度甚至超过了音频播放速度。甚至可以zero-shot克隆声音。
视觉+语音=更强的语音识别!BPO-AVASR通过优化音视频输入和输出偏好,提升语音识别在真实场景中的准确性,解决了传统方法在噪声、口语化和视觉信息利用不足的问题。