大模型 “准确率悬崖” 被证实,科学家发现模型单次处理容量上限,多智能体成破局关键
大模型 “准确率悬崖” 被证实,科学家发现模型单次处理容量上限,多智能体成破局关键近日,来自阿联酋穆罕默德·本·扎耶德人工智能大学 MBZUAI 和保加利亚 INSAIT 研究所的研究人员发现一个针对大模型单次推理的“法诺式准确率上限”,借此不仅揭示了单次生成范式的根本性脆弱点,也揭示了“准确率悬崖”这一现象。
近日,来自阿联酋穆罕默德·本·扎耶德人工智能大学 MBZUAI 和保加利亚 INSAIT 研究所的研究人员发现一个针对大模型单次推理的“法诺式准确率上限”,借此不仅揭示了单次生成范式的根本性脆弱点,也揭示了“准确率悬崖”这一现象。
谷歌的Gemini 3.0疑似上线LMArena!众多实测提前曝光,但效果嘛,很难评。Gemini 3.0传了这么久,终于还是露出「马脚」了。依然还是LMAreana竞技场,Gemini 3.0的两个「马甲」被扒了出来。
具身智能落地迈出关键一步,AI拥有第一人称与第三人称的“通感”了!
搜索在变,交易在变,归因在变——AI 正在重写电商的底层逻辑。从“人找货”到“智能体替你理解、推荐、比价、下单”,消费者与平台之间的关系被彻底改写。过去二十年,互联网商业的三大支柱是:广告、订阅与电商。
Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。
多模态大模型表现越来越惊艳,但人们也时常困于它的“耿直”。
每隔一阵子,总有人宣告“RAG已死”:上下文越来越长、端到端多模态模型越来越强,好像不再需要检索与证据拼装。但真正落地到复杂文档与可溯源场景,你会发现死掉的只是“只切文本的旧RAG”。
我好像有点,越来越不喜欢AI总结这件事了。
Meta提出早期经验(Early Experience)让代理在无奖励下从自身经验中学习:在专家状态上采样替代动作、执行并收集未来状态,将这些真实后果当作监督信号。核心是把“自己造成的未来状态”转为可规模化的监督。
国庆不放假,国内AI厂商都在干嘛?百度:卷!