AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

智能体终于拥有了可以海量复制的“实战演练场”。阿里此次开源的新项目ROCK,解决了无法在真实环境中规模化训练的难题。有了ROCK,开发者想要训练AI执行复杂任务时可以不再“手搓”环境,直接进行标准化的一键部署。

来自主题: AI技术研报
7609 点击    2025-11-27 10:57
谢赛宁与Jaakkola团队重磅研究:无数据Flow Map蒸馏

谢赛宁与Jaakkola团队重磅研究:无数据Flow Map蒸馏

谢赛宁与Jaakkola团队重磅研究:无数据Flow Map蒸馏

前些天,一项「AI 传心术」的研究在技术圈炸开了锅:机器不用说话,直接抛过去一堆 Cache 就能交流。让人们直观感受到了「去语言化」的高效,也让机器之心那条相关推文狂揽 85 万浏览量。参阅报道《用「传心术」替代「对话」,清华大学联合无问芯穹、港中文等机构提出 Cache-to-Cache 模型通信新范式》。

来自主题: AI技术研报
7247 点击    2025-11-27 10:11
预测下一个像素还需要几年?谷歌:五年够了

预测下一个像素还需要几年?谷歌:五年够了

预测下一个像素还需要几年?谷歌:五年够了

既然语言可以当序列来学,那图像能不能也当序列来学?

来自主题: AI技术研报
8310 点击    2025-11-27 10:10
超级APP的AI战略:中国互联网巨头的流量保卫战与Agent新物种

超级APP的AI战略:中国互联网巨头的流量保卫战与Agent新物种

超级APP的AI战略:中国互联网巨头的流量保卫战与Agent新物种

Xsignal AI Holo(AI 全息)数据库显示,中国移动互联网的AI落地已彻底分化为两条路径:以微信、抖音的AI搜索为代表的“AI Overview (AIO)”旨在筑起认知的长城,将决策锁定在生态内部;而以QQ浏览器QBot为代表的“Agent in App (AIA)”则正演变为主动式的“数字员工”,重构服务分发的主权。

来自主题: AI技术研报
7235 点击    2025-11-27 10:08
突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知

突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知

突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知

视觉-语言-动作模型(VLA)在机器人操控领域展现出巨大潜力。通过赋予预训练视觉-语言模型(VLM)动作生成能力,机器人能够理解自然语言指令并在多样化场景中展现出强大的泛化能力。然而,这类模型在应对长时序或精细操作任务时,仍然存在性能下降的现象。

来自主题: AI技术研报
9316 点击    2025-11-27 09:48
从1965到2025,AI智能体终于向科学家开刀了……

从1965到2025,AI智能体终于向科学家开刀了……

从1965到2025,AI智能体终于向科学家开刀了……

科学发现的轨迹,如同交织在人类历史中的璀璨织锦,经历了一系列范式的演进。早期的探索,主要依赖于由直觉、反复试验或机缘巧合驱动的经验发现。随后,以牛顿力学为代表的理论框架,为我们洞察自然现象的基本原理提供了基石。

来自主题: AI技术研报
6263 点击    2025-11-27 09:44
OpenAI发布Codex实战手册,GPT5.1的持续工作极限为2小时17分钟

OpenAI发布Codex实战手册,GPT5.1的持续工作极限为2小时17分钟

OpenAI发布Codex实战手册,GPT5.1的持续工作极限为2小时17分钟

2小时17分钟,这是截至2025年8月,前沿AI模型在保持50%成功率的前提下,能够维持连续推理工作的时长。这个数字意味着AI已经从处理“秒级”的代码片段,跨越到了处理“小时级”的复杂工程任务。

来自主题: AI技术研报
8826 点击    2025-11-26 15:14
RAG被判死刑:Google用一行API架空工程师!

RAG被判死刑:Google用一行API架空工程师!

RAG被判死刑:Google用一行API架空工程师!

Google宣判RAG死刑!那条曾让无数工程师自豪的技术链,如今只剩下一行API调用。Gemini的File Search,把检索、分块、索引、引用,全都封进了模型内部。开发者不再需要理解流程,只需要上传文件。当智能被自动化吞并,工程师第一次发现,自己也成了被自动化的一部分。

来自主题: AI技术研报
10020 点击    2025-11-26 15:14
告别静态操控:新型AI可穿戴贴片,可在运动中精准识别手势控制机械臂

告别静态操控:新型AI可穿戴贴片,可在运动中精准识别手势控制机械臂

告别静态操控:新型AI可穿戴贴片,可在运动中精准识别手势控制机械臂

美国加州大学圣地亚哥分校(UCSD)徐升教授对 DeepTech 表示:“很荣幸我们的工作成为 Nature Sensors 期刊的首篇论文,我们第一次通过 AI 的方法实现了在动态下抗运动伪影的人机交互,应用场景包括可穿戴和移动设备的手势控制、机器人遥操作、AR/VR 动作追踪、游戏、康复与辅助设备、工业与军事训练、健康与运动监测、

来自主题: AI技术研报
7253 点击    2025-11-26 14:38
告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

在AI视频创作过程中,创作者常因频繁切换多种工具而疲惫,导致创作热情消磨。近期,多所高校联合开源的UniVA框架,像一位「AI导演」,能整合多种视频工具,提供从脚本到成片的一站式自动化体验,改变传统「抽卡」式创作,支持多轮交互和主动纠错,还能实现风格迁移、前传创作等功能,为视频创作带来高效与便捷。

来自主题: AI技术研报
8818 点击    2025-11-26 14:37
中兴发了一篇论文,洞察AI更前沿的探索方向

中兴发了一篇论文,洞察AI更前沿的探索方向

中兴发了一篇论文,洞察AI更前沿的探索方向

当大模型参数量冲向万亿级,GPT-4o、Llama4 等模型不断刷新性能上限时,AI 行业也正面临前所未有的瓶颈。Transformer 架构效率低、算力消耗惊人、与物理世界脱节等问题日益凸显,通用人工智能(AGI)的实现路径亟待突破。

来自主题: AI技术研报
6798 点击    2025-11-26 13:47
NeurIPS 2025 Spotlight | 中国联通以全局优化重塑扩散模型加速

NeurIPS 2025 Spotlight | 中国联通以全局优化重塑扩散模型加速

NeurIPS 2025 Spotlight | 中国联通以全局优化重塑扩散模型加速

当前,视频生成模型性能正在快速提升,尤其是基于Transformer架构的DiT模型,在视频生成领域的表现已经逐渐接近真实拍摄效果。然而,这些扩散模型也面临一个共同的瓶颈:推理时间长、算力成本高、生成速度难以提升。随着视频生成长度持续增加、分辨率不断提高,这个瓶颈正在成为影响视频创作体验的主要障碍之一。

来自主题: AI技术研报
7320 点击    2025-11-26 13:46
哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA

哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA

哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA

全模态大模型(Omnimodal Large Models, OLMs)能够理解、生成、处理并关联真实世界多种数据类型,从而实现更丰富的理解以及与复杂世界的深度交互。人工智能向全模态大模型的演进,标志着其从「专才」走向「通才」,从「工具」走向「伙伴」的关键点。

来自主题: AI技术研报
7559 点击    2025-11-26 09:13
浅谈一下RLVR&SFT分别对模型显性知识学习和隐参数空间结构扰动背后的一些猜想

浅谈一下RLVR&SFT分别对模型显性知识学习和隐参数空间结构扰动背后的一些猜想

浅谈一下RLVR&SFT分别对模型显性知识学习和隐参数空间结构扰动背后的一些猜想

最近不论是在学术圈还是产业实践中,对于RLVR和传统SFT之间的区别与联系,以及RL本身基于奖励建模反馈机制并结合不同的策略优化算法过程中对模型显性知识的学习和隐参数空间的变化的讨论热度一直很高。

来自主题: AI技术研报
6056 点击    2025-11-26 09:12
别装了,AI巨头们!谁在卡脖子,谁在割韭菜?这张图一目了然

别装了,AI巨头们!谁在卡脖子,谁在割韭菜?这张图一目了然

别装了,AI巨头们!谁在卡脖子,谁在割韭菜?这张图一目了然

卡内基梅隆揭秘美国AI产业链:谁能扼住AI的喉咙?OpenAI和迪士尼如何捆绑,AMD、软银和英伟达究竟在下哪盘棋?卡内基梅隆大学刚刚抛出一颗「产业核弹」:首个系统刻画数据、算力、模型、资本乃至人才流向的AI供应链数据集。

来自主题: AI技术研报
7994 点击    2025-11-25 16:35
AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」,联邦推荐如何实现「千人千面」的图文融合?

AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」,联邦推荐如何实现「千人千面」的图文融合?

AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」,联邦推荐如何实现「千人千面」的图文融合?

在推荐系统迈向多模态的今天,如何兼顾数据隐私与个性化图文理解?悉尼科技大学龙国栋教授团队联合香港理工大学杨强教授、张成奇教授团队,提出全新框架 FedVLR。该工作解决了联邦环境下多模态融合的异质性难题,已被人工智能顶级会议 AAAI 2026 接收为 Oral Presentation。

来自主题: AI技术研报
7853 点击    2025-11-25 15:30
新型AI芯片能耗重大突破,已登Nature子刊

新型AI芯片能耗重大突破,已登Nature子刊

新型AI芯片能耗重大突破,已登Nature子刊

AI 浪潮席卷全球,但算力功耗的 “电费焦虑” 也随之而来。传统冯・诺依曼架构下,数据在 CPU 和内存间 “疲于奔命”,消耗了大量能量。

来自主题: AI技术研报
8901 点击    2025-11-25 10:06
NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!

NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!

NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!

图像与视频重光照(Relighting)技术在计算机视觉与图形学中备受关注,尤其在电影、游戏及增强现实等领域应用广泛。当前,基于扩散模型的方法能够生成多样且可控的光照效果,但其优化过程通常依赖于语义空间,而语义上的相似性无法保证视觉空间中的物理合理性,导致生成结果常出现高光过曝、阴影错位、遮挡关系错误等不合理现象。

来自主题: AI技术研报
5690 点击    2025-11-25 10:03
AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

随着大型视觉语言模型在多个下游任务的广泛应用,其潜在的安全风险也开始快速显露。研究表明,即便是最先进的大型视觉语言模型,也可能在面对带有隐蔽的恶意意图的图像 — 文本输入时给出违规甚至有害的响应,而现有的轻量级的安全对齐方案都具有一定的局限性。

来自主题: AI技术研报
7601 点击    2025-11-25 09:30
顶流设计Agent能用Nano Banana Pro了!一句话BlackPink变东北翠花

顶流设计Agent能用Nano Banana Pro了!一句话BlackPink变东北翠花

顶流设计Agent能用Nano Banana Pro了!一句话BlackPink变东北翠花

两个AI顶流终于是碰到了一起,这回设计师们真要慌了但也可能是大意过望了—— 因为Lovart,这个顶流设计师Agent,现在已经正式接入Nano Banana Pro了!

来自主题: AI技术研报
7924 点击    2025-11-24 15:00
对话范浩强:10亿融资之前,我们手搓了5000元“丐版硬件”

对话范浩强:10亿融资之前,我们手搓了5000元“丐版硬件”

对话范浩强:10亿融资之前,我们手搓了5000元“丐版硬件”

因为成功手搓了一个成本不到5000元的“拼夕夕式”丐版硬件,原旷视6号员工、研究院助理院长范浩强终于下决心,在2025年投身具身智能创业。

来自主题: AI技术研报
9748 点击    2025-11-24 14:58