大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26
大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26随着多模态大模型能力不断扩展,语音大模型(SpeechLLMs) 已从语音识别走向复杂语音交互。然而,当模型逐渐进入真实口语交互场景,一个更基础的问题浮现出来:我们是否真正定义清楚了「语音理解」的能力边界?
搜索
随着多模态大模型能力不断扩展,语音大模型(SpeechLLMs) 已从语音识别走向复杂语音交互。然而,当模型逐渐进入真实口语交互场景,一个更基础的问题浮现出来:我们是否真正定义清楚了「语音理解」的能力边界?
我正对着镜子站立,举起一只手。在我的视野中,这只手出现在镜子画面的左侧。 请问在现实中,我举起的是哪只手? 答案应该是:左手。 一道堪比「9.11 > 9.8」的 AI 陷阱题。 前两天,我拿它测了一
奥特曼又又又又口出狂言了。在印度 Express Adda 的论坛上,Sam Altman 聊了很多 AI 话题,从 AGI 到中美 AI 竞争,再到数据中心用水问题。但最火的那段,是他回应 AI 能耗批评时说的:「人们总谈训练 AI 模型需要多少能源……但训练人类也需要大量能源,得花 20 年时间,消耗那么多食物,才能变聪明。」
作者 | 高允毅 很多人知道,Transformer 是谷歌发明的。但 ChatGPT,却不是谷歌做出来的。这件事,在过去几年,几乎成了硅谷最大的“遗憾注脚”。 但如果真正走进今天的 Google D
马上春节假期都结束了,不知道大家有没有人被家里催婚 😭 我这几天一直躺在屋里,为了躲避惨无人道的亲戚催婚,睡得昏天暗地,睡觉、刷抖音、刷 X、刷小红书、吃饭、睡觉,闭环了。 就在昨天,我日常刷抖音的时
作为目前全球最主要的大模型 API 聚合网关之一,OpenRouter 的 Token 调用量在 2026 年 1 月下旬出现了明显跃升。自 1 月 26 日当周开始,平台 Token 周增量首次突破 1.5T,这一幅度在过去的调用曲线中并不常见。时间点同样值得玩味——这一轮增长几乎与 OpenClaw 的迅速传播高度重合。人们开始发现,OpenClaw 简直就是 Token 碎纸机。
诺奖得主Hassabis,刚刚给AGI一个新定义——爱因斯坦测试!能在4年内推导出1915年广义相对论的,才算真正的AGI。马斯克立即来反驳了:人类集体都没独立重现相对论,要是AI真能做到,那就不是AGI,而是「超神」了。但无可否认:AGI,真的超近了
「自然语言就是新的编程语言。」这句话在过去一年里被无数人奉为圭臬。特斯拉前 AI 总监 Andrej Karpathy 带火的 「Vibe Coding」(氛围编程)更是让这种狂热达到了顶峰——你不需要懂语法,不需要管实现,只要对着 AI 喊出需求,然后 Check 一下感觉(Vibe)对不对就行了。
Anthropic最新报告揭示,AI智能体近半数使用量集中在软件工程,其余16个垂直行业各占不到9%。AI已具备连续工作5小时的能力,但用户目前最多只让它跑42分钟,信任远未跟上技术。Y Combinator CEO陈嘉兴断言:这片几乎空白的行业版图里,藏着下一代300个独角兽。
自从OpenClaw爆火后,各种Claw开始轮番登场。NanoClaw、ZeroClaw、PicoClaw刷屏,连卡帕西都坐不住了,为了“抓虾”,他一个百米冲刺奔向苹果店抢Mac Mini,要好好拆解一番爆火的各种Claw们。