AI资讯新闻榜单内容搜索-io

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

由格灵深瞳灵感实验室主导研发的 LLaVA-OneVision-2.0，是一款面向下一代感知智能的视觉语言大模型。团队充分利用视频 Codec 流和自研 OneVision-Encoder，实现跨帧、跨事件的增量观测和连续证据流建模。本文将详细介绍模型架构、训练方法与能力验证，展示该技术在视频理解、空间推理和目标追踪等任务中的应用潜力。

来自主题: AI技术研报

6345 点击 2026-06-03 15:03

大模型「行口」不一？首个专测执行幻觉基准，覆盖真实行为越狱

随着大模型智能体深入渗透真实操作系统，一种全新的安全威胁悄然成型：行为越狱（Behavior Jailbreak）。现有安全基准只盯着模型「说了什么」，却对「做了什么」视而不见。新基准LITMUS是首个同时覆盖真实OS环境行为越狱、语义-物理双层验证与多攻击范式的完整评测体系，并首次系统量化了「执行幻觉」这一被整个评测社区忽视的致命盲区。

来自主题: AI技术研报

9901 点击 2026-06-03 14:33

iPhone 终于等来苹果最强 AI，iOS 27 亮点提前看

距离今年的苹果全球开发者大会 WWDC 还有几天，关于苹果新系统的爆料也已经越来越完整，外界几乎快提前「拼」出了今年的软件版图。

来自主题: AI资讯

7367 点击 2026-06-02 16:18

AGI将至！40项实验全面SOTA，超级递归智能体自主打造最强材料基座模型

今年，我们正在打开 AI 自我进化的大门，按下了通往 AGI 的加速键。

来自主题: AI技术研报

5726 点击 2026-06-02 15:23

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

把一件皱成一团的衣服叠好，是家务，也是机器人操作里的“硬仗”。

来自主题: AI技术研报

8240 点击 2026-06-02 11:57

牛津、英伟达等提出记忆压缩新范式：训练时让模型学会断舍离

2026 年初，各大 AI 厂商在上下文窗口长度上展开激烈角逐。Google 的 Gemini 3 Pro 已支持 100 万级 token 上下文，Meta 的 Llama 4 Scout 更宣称可处理 1000 万 token。GPT-5 系列也在快速推进长上下文能力。

来自主题: AI技术研报

10289 点击 2026-06-02 11:23

材料版AlphaFold来了！40个工业任务全方位SOTA，AI4S迎来行业大突破

AI模型在电脑上预测精度爆表，一到实验室就各种出错用不了？

来自主题: AI技术研报

7728 点击 2026-06-01 14:58

前沿｜光速创投领投5900万美元，Reactor剑指世界模型基础设施，做实时AI世界的“AWS”

核心观点：由前Apple Vision Pro两位技术负责人联合创办的Reactor，近期完成5900万美元种子轮及A轮融资，由Lightspeed Venture Partners领投，WndrCo

来自主题: AI资讯

10215 点击 2026-06-01 10:44

MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你

MiniMax M3 今日正式发布。MiniMax M3 在编程和智能体等专业任务上达到了前沿的能力。它使用了我们提出的全新注意力架构 MSA （MiniMax Sparse Attention），最高支持 1M 超长上下文。如外界所期待的那样，它也是一个原生多模态模型，支持图片和视频的输入，并能操作电脑桌面。

来自主题: AI资讯

9941 点击 2026-06-01 09:49

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

今天，扣子 3.0 正式上线，扣子手机端（iOS / Android）、电脑端（Mac OS / Windows）、网页端（coze.cn）三端全量更新。这一次，扣子带来了全新电脑端，扣子 App 也全面升级，我们把 Agent 带进了更完整的工作现场：

来自主题: AI资讯

9056 点击 2026-06-01 09:13