完爆ChatGPT!谷歌这招太狠:连你的「阴阳怪气」都能神还原
完爆ChatGPT!谷歌这招太狠:连你的「阴阳怪气」都能神还原谷歌发布Gemini 2.5 Flash原生音频模型,不仅能保留语调进行实时语音翻译,更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。
谷歌发布Gemini 2.5 Flash原生音频模型,不仅能保留语调进行实时语音翻译,更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。
Google 周五宣布,正式向 Google 翻译引入其 Gemini 模型的各项能力。此次更新不仅带来了能够通过耳机进行的实时语音翻译 Beta 版体验,还大幅提升了文本翻译的语境理解能力,并扩展了应用内的语言学习工具。
来自AI语音独角兽公司ElevenLabs,刚刚发布了Scribe v2 Realtime实时语音转文本模型,网友表示:Next-Level。150毫秒的超低延迟,93.5%的高准确率,还覆盖了90多种语言。
在AI行业新诞生的「多模态交互」赛道上,声网发布的「对话式AI引擎」,让所有文本大模型秒变多模态,具备实时语音对话能力,补齐了大模型「失语」的短板。
早上MiniMax上线TTS,字节上线AI编程Trae;下午字节全量上线豆包实时语音;晚上DeepSeek开源R1性能直接对标OpenAI o1,然后Kimi的k1.5直接正面硬刚。昨天的余温还没过,今天下午,腾讯混元又悄悄开了个闭门发布会,作为混元的老基友,我自然是受邀参加期期不落。
就在刚刚,豆包的超级实时语音全量上线了。
OpenAI Realtime API 的「说明书」。
今天,「天工大模型4.0」o1版/4o版在网页端和APP端正式上线了,人人可玩的那种。
家人们!OpenAI 这 12 天的连续剧大家都追完了吗?别急着下线!
你是不是以为发了GPT4.5?但很抱歉,今天只是发布了o1的API以及实时语音的新玩意。 还记得前段时间的OpenAI的DevDay吗?那上面曾经说过会更新OpenAI的API,现在期货交割了!这次OpenAI表现很好,才用了短短的一个多月就完成了交割,值得鼓励!(我是在吹不下去了。。。)