硅谷热议:最快语音转文字模型Scribe v2 Realtime
硅谷热议:最快语音转文字模型Scribe v2 Realtime来自AI语音独角兽公司ElevenLabs,刚刚发布了Scribe v2 Realtime实时语音转文本模型,网友表示:Next-Level。150毫秒的超低延迟,93.5%的高准确率,还覆盖了90多种语言。
来自AI语音独角兽公司ElevenLabs,刚刚发布了Scribe v2 Realtime实时语音转文本模型,网友表示:Next-Level。150毫秒的超低延迟,93.5%的高准确率,还覆盖了90多种语言。
在7000多种人类语言中,只有少数被现代语音技术听见,如今这种不平等或将被打破。Meta发布的Omnilingual ASR系统能识别1600多种语言,并可通过少量示例快速学会新语言。以开源与社区共创为核心,这项技术让每一种声音都有机会登上AI的舞台。
一段令人心碎的离别视频走红:小女孩与AI玩具的深情告别,揭示了对话式AI如何悄然融入人类情感世界,预示着实时交互技术的革命性突破。
如果我不说,你能分清哪个是马斯克本人的声音吗?
Voice Agent 赛道正在爆发,但它迫切需要一个能让对话真正「流动起来」的底层引擎,一个能撑起下一代交互体验的 TTS 模型。竞争的焦点,已经从 LLM 的「大脑」,延伸到了 TTS 的「嗓音」。谁掌握嗓音,谁就掌握着下一代 AI 商业化的钥匙。而 10 月 30 日 MiniMax 发布的 Speech 2.6 模型,似乎正是一个专为解决这些痛点而来的答案。
杜克大学和 Adobe 最近发布的 VERA 研究,首次系统性地测量了语音模态对推理能力的影响。研究覆盖 12 个主流语音系统,使用了 2,931 道专门设计的测试题。
Keplar 是一家市场调研初创公司,该公司运用语音 AI 技术进行客户访谈,能以远低于传统调研咨询公司的成本,为客户提供更快速的分析报告。
两年过去,ElevenLabs 已经融资 2.6 亿美元,网站访问量超 2500 万,稳坐 AI Web 全球 Top50 榜单,成为 AI 语音赛道的头部创企。而 Speechify 却渐渐“掉队”,榜单中难觅身影,而作为一个 AI 企业,它仅在 2017 和 2020 年有过两次融资,近几年也没有传出任何融资消息。
智东西9月15日报道,今天,阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块,针对性优化了“幻觉”、“串语种”等关键问题,在高噪声的场景下,幻觉率从78.5%下降至10.7%,下降幅度接近70%。
一句语音指令,复杂操作自动完成。安卓正迎来一场由AI语音快捷指令主导的交互革命,Shortcuts for Android (SFA) 不仅填补了与iOS快捷指令的差距,更正在重新定义人们与移动设备的互动方式。