OpenAI 推出三款实时语音模型,可边听边「思考」、翻译和转录
OpenAI 推出三款实时语音模型,可边听边「思考」、翻译和转录不知道大家平时有没有这种经历。
来自主题: AI资讯
7375 点击 2026-05-08 10:18
搜索
不知道大家平时有没有这种经历。
昨日凌晨,谷歌正式推出其最高质量的音频和语音模型——实时语音模型Gemini 3.1 Flash Live,并在Gemini App、Search Live以及Google AI Studio中同步开放,其中后者以预览版本向开发者提供。
近期,FlashLabs 发布并开源了其实时语音模型 Chroma 1.0,其定位为全球首个开源的端到端语音到语音模型。Chroma 1.0 发布之后,便在社媒爆火,吸引了大量的关注。X 上的官推帖子已经突破了百万浏览量。
两个多月前那个对标GPT-4o的端到端语音模型,终于开源了。大神Karpathy体验之后表示:nice!