AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
LLM工业级自进化:北邮与腾讯AI Lab提出MoE-CL架构,解决大模型持续学习核心痛点

LLM工业级自进化:北邮与腾讯AI Lab提出MoE-CL架构,解决大模型持续学习核心痛点

LLM工业级自进化:北邮与腾讯AI Lab提出MoE-CL架构,解决大模型持续学习核心痛点

在工业级大语言模型(LLM)应用中,动态适配任务与保留既有能力的 “自进化” 需求日益迫切。真实场景中,不同领域语言模式差异显著,LLM 需在学习新场景合规规则的同时,不丢失旧场景的判断能力。这正是大模型自进化核心诉求,即 “自主优化跨任务知识整合,适应动态环境而无需大量外部干预”。

来自主题: AI技术研报
5995 点击    2025-09-30 15:36
十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家

十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家

十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家

上海人工智能实验室发布新一代文档解析大模型——MinerU2.5。作为MinerU系列最新成果,该模型仅以1.2B参数规模,就在OmniDocBench、olmOCR-bench、Ocean-OCR等权威评测上,全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型,以及dots.ocr、MonkeyOCR、PP-StructureV3等专业文档解析工具。

来自主题: AI技术研报
7052 点击    2025-09-30 10:45
DeepSeek突然拥抱国产GPU语言!TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配

DeepSeek突然拥抱国产GPU语言!TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配

DeepSeek突然拥抱国产GPU语言!TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配

DeepSeek v3.2有一个新改动,在论文里完全没提,只在官方公告中出现一次,却引起墙裂关注。开源TileLang版本算子,其受关注程度甚至超过新稀疏注意力机制DSA,从画线转发的数量就可以看出来。

来自主题: AI技术研报
7430 点击    2025-09-30 10:42
知心者?操控者?施虐者?AI伙伴如何影响我们的心理健康

知心者?操控者?施虐者?AI伙伴如何影响我们的心理健康

知心者?操控者?施虐者?AI伙伴如何影响我们的心理健康

原文作者:David Adam 本篇《自然》长文共3702字,干货满满,预计阅读时间12分钟,时间不够建议可以先“浮窗”或者收藏哦。 研究表明,电子伙伴类应用有利有弊——但科学家们担心长期依赖性。 绘

来自主题: AI技术研报
5593 点击    2025-09-30 10:41
谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界

谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界

谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界

DeepMind公开了有关Veo 3视频模型最新论文!论文提出了「帧链」(Chain-of-Frames,CoF),认为视频模型也可能像通用大模型一样具备推理能力。零样本能力的涌现,表明视频模型的「GPT-3时刻」来了。

来自主题: AI技术研报
5447 点击    2025-09-29 22:09
HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5

HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5

HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5

就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,Eigen AI金帝、王瀚锐等团队联合开发的Eigen-1多智能体系统实现了历史性突破

来自主题: AI技术研报
6833 点击    2025-09-29 15:14
机器人感知大升级!轻量化注入几何先验,成功率提升31%

机器人感知大升级!轻量化注入几何先验,成功率提升31%

机器人感知大升级!轻量化注入几何先验,成功率提升31%

VLA模型通常建立在预训练视觉语言模型(VLM)之上,仅基于2D图像-文本数据训练,缺乏真实世界操作所需的3D空间理解能力。

来自主题: AI技术研报
5688 点击    2025-09-29 14:53
前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息

前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息

前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息

在三维重建不断走向工程化的今天,前馈式3D Gaussian Splatting(Feed-Forward 3DGS)正火速走向产业化。 然而,现有的前馈3DGS方法主要采用“像素对齐”(pixel-aligned)策略——即将每个2D像素单独映射到一个或多个3D高斯上。

来自主题: AI技术研报
5073 点击    2025-09-29 14:49
千寻智能高阳团队最新成果:纯视觉VLA方案从有限数据中学到强大的空间泛化能力

千寻智能高阳团队最新成果:纯视觉VLA方案从有限数据中学到强大的空间泛化能力

千寻智能高阳团队最新成果:纯视觉VLA方案从有限数据中学到强大的空间泛化能力

最近,千寻智能的研究人员注意到,基于模仿学习的视觉运动策略中也存在类似现象,并在论文《Do You Need Proprioceptive States in Visuomotor Policies?》中对此进行了深入探讨。

来自主题: AI技术研报
6407 点击    2025-09-29 14:31
Transformer作者初创公司最新成果:开源新框架突破进化计算瓶颈,样本效率暴涨数十倍

Transformer作者初创公司最新成果:开源新框架突破进化计算瓶颈,样本效率暴涨数十倍

Transformer作者初创公司最新成果:开源新框架突破进化计算瓶颈,样本效率暴涨数十倍

Transformer作者Llion Jones带着自己的初创公司Sakana AI,又来搞事情了。(doge)最新推出的开源框架——ShinkaEvolve,可以让LLM在自己写代码优化自己的同时,还能同时兼顾效率,be like为进化计算装上一个“加速引擎”。

来自主题: AI技术研报
7076 点击    2025-09-29 11:01
攻克大模型「表格盲区」!ST-Raptor框架发布,实现复杂半结构化表格的精准理解与信息抽取

攻克大模型「表格盲区」!ST-Raptor框架发布,实现复杂半结构化表格的精准理解与信息抽取

攻克大模型「表格盲区」!ST-Raptor框架发布,实现复杂半结构化表格的精准理解与信息抽取

来自上海交通大学计算机学院、西蒙菲莎大学、清华大学、中国人民大学的合作团队,带来基于树形框架的智能表格问答系统(ST-Raptor),其不仅能精准捕捉表格中的复杂布局,还能自动生成表格操作指令,并一步步执行这些操作流程,最终准确回答用户提出的问题 —— 就像给 Excel 装上了一个会思考的 “AI 大脑”。

来自主题: AI技术研报
6504 点击    2025-09-29 10:36
登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式,在视频与激光雷达指标上达到SOTA水平

登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式,在视频与激光雷达指标上达到SOTA水平

登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式,在视频与激光雷达指标上达到SOTA水平

由华中科技大学与小米汽车提出了业内首个无需 OCC 引导的多模态的图像 - 点云联合生成框架 Genesis。该算法只需基于场景描述和布局(包括车道线和 3D 框),就可以生成逼真的图像和点云视频。

来自主题: AI技术研报
5401 点击    2025-09-29 10:28
陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

结合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。陈丹琦新作来了。他们提出了一个结合RLHF和RLVR优点的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励思维的强化学习)。

来自主题: AI技术研报
7914 点击    2025-09-28 23:03
DeepMind率先提出CoF:视频模型有自己的思维链

DeepMind率先提出CoF:视频模型有自己的思维链

DeepMind率先提出CoF:视频模型有自己的思维链

CoT思维链的下一步是什么? DeepMind提出帧链CoF(chain-of-frames)。

来自主题: AI技术研报
5150 点击    2025-09-28 18:04
OpenAI 3万亿美元测试,AI首战44个行业人类专家!

OpenAI 3万亿美元测试,AI首战44个行业人类专家!

OpenAI 3万亿美元测试,AI首战44个行业人类专家!

AI下半场,AGI已成过去式,ASI正引领新智能革命!OpenAI推出的GDPval评估体系,通过真实工作任务审视大模型潜力,揭示AI如何从实验室走向3万亿经济战场,助力人类从日常琐事中解放,拥抱创造性未来。

来自主题: AI技术研报
6534 点击    2025-09-28 17:35
让大模型合成检查器:UIUC团队挖出Linux内核90余个长期潜伏漏洞

让大模型合成检查器:UIUC团队挖出Linux内核90余个长期潜伏漏洞

让大模型合成检查器:UIUC团队挖出Linux内核90余个长期潜伏漏洞

最近的报道指出,OpenAI 的 o3 模型已经在 Linux 内核中发现了一个零日漏洞;而本文的 KNighter 更进一步,通过自动生成静态分析检查器,把模型的洞察沉淀为工程可用、用户可见的逻辑规则,实现了规模化的软件漏铜、缺陷挖掘。

来自主题: AI技术研报
6168 点击    2025-09-28 16:59
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

一个月前,我们曾报道过清华姚班校友、普林斯顿教授陈丹琦似乎加入 Thinking Machines Lab 的消息。有些爆料认为她在休假一年后,会离开普林斯顿,全职加入 Thinking Machines Lab。

来自主题: AI技术研报
5741 点击    2025-09-28 16:46
BCG联合印度联合发布《全球AI竞赛》:全球 AI 分化:发达国家 66%的企业已制定 AI 战略,最不发达国家低至 12%

BCG联合印度联合发布《全球AI竞赛》:全球 AI 分化:发达国家 66%的企业已制定 AI 战略,最不发达国家低至 12%

BCG联合印度联合发布《全球AI竞赛》:全球 AI 分化:发达国家 66%的企业已制定 AI 战略,最不发达国家低至 12%

在AI 技术迅猛发展的当下,全球正迎来一场关乎经济主导权的“竞赛”。波士顿咨询集团(BCG )与印度工商联合会(FICCI)于 2025 年 9 月联合发布的白皮书《Global AI Race》(全球AI 竞赛)深入剖析了这一现象。

来自主题: AI技术研报
7579 点击    2025-09-28 09:58
翁荔陈丹琦加盟的840亿AI公司,公开第二篇论文

翁荔陈丹琦加盟的840亿AI公司,公开第二篇论文

翁荔陈丹琦加盟的840亿AI公司,公开第二篇论文

明星创业公司Thinking Machines,第二篇研究论文热乎出炉!公司创始人、OpenAI前CTO Mira Murati依旧亲自站台,翁荔等一众大佬也纷纷转发支持:论文主题为“Modular Manifolds”,通过让整个网络的不同层/模块在统一框架下进行约束和优化,来提升训练的稳定性和效率。

来自主题: AI技术研报
8021 点击    2025-09-28 09:54
免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」

免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」

免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」

杜克大学团队发现,扩散大语言模型只需关注少量「中奖」token,就能在推理时把速度提升61-97倍,还能让模型更懂格式、更听话。新策略DPad不训练也能零成本挑出关键信息,实现「少算多准」的双赢。

来自主题: AI技术研报
6593 点击    2025-09-28 09:51
业界首个高质量原生3D组件生成模型来了!来自腾讯混元团队

业界首个高质量原生3D组件生成模型来了!来自腾讯混元团队

业界首个高质量原生3D组件生成模型来了!来自腾讯混元团队

业界首个高质量原生3D组件生成模型来了!来自腾讯混元3D团队。现有的3D生成算法通常会生成一体化的3D模型,而下游应用通常需要语义可分解的3D形状,即3D物体的每一个组件需要单独地生成出来。

来自主题: AI技术研报
6947 点击    2025-09-27 16:06
超越免训练剪枝:LightVLA引入可微分token剪枝,首次实现VLA模型性能和效率的双重突破

超越免训练剪枝:LightVLA引入可微分token剪枝,首次实现VLA模型性能和效率的双重突破

超越免训练剪枝:LightVLA引入可微分token剪枝,首次实现VLA模型性能和效率的双重突破

LightVLA 是一个旨在提升 VLA 推理效率且同时提升性能的视觉 token 剪枝框架。当前 VLA 模型在具身智能领域仍面临推理代价大而无法大规模部署的问题,然而大多数免训练剪枝框架依赖于中间注意力输出,并且会面临性能与效率的权衡问题。

来自主题: AI技术研报
5192 点击    2025-09-27 11:25
多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025

多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025

多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025

不牺牲任何生成质量,将多模态大模型推理最高加速3.2倍! 华为诺亚方舟实验室最新研究已入选NeurIPS 2025。

来自主题: AI技术研报
6550 点击    2025-09-27 11:19
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。

来自主题: AI技术研报
6883 点击    2025-09-27 11:13
NeurIPS 2025 | 面向具身场景的生成式渲染器TC-Light来了,代码已开源

NeurIPS 2025 | 面向具身场景的生成式渲染器TC-Light来了,代码已开源

NeurIPS 2025 | 面向具身场景的生成式渲染器TC-Light来了,代码已开源

TC-Light 是由中科院自动化所张兆翔教授团队研发的生成式渲染器,能够对具身训练任务中复杂和剧烈运动的长视频序列进行逼真的光照与纹理重渲染,同时具备良好的时序一致性和低计算成本开销,使得它能够帮助减少 Sim2Real Gap 以及实现 Real2Real 的数据增强,帮助获得具身智能训练所需的海量高质量数据。

来自主题: AI技术研报
6239 点击    2025-09-27 11:06
NeurIPS Spotlight|运动遮挡都不怕,0先验、一段视频精准预测相机参数

NeurIPS Spotlight|运动遮挡都不怕,0先验、一段视频精准预测相机参数

NeurIPS Spotlight|运动遮挡都不怕,0先验、一段视频精准预测相机参数

在三维重建、NeRF 训练、视频生成等任务中,相机参数是不可或缺的先验信息。传统的 SfM/SLAM 方法(如 COLMAP)在静态场景下表现优异,但在存在人车运动、物体遮挡的动态场景中往往力不从心,并且依赖额外的运动掩码、深度或点云信息,使用门槛较高,而且效率低下。

来自主题: AI技术研报
5852 点击    2025-09-27 10:58
攻克结构化长文档检索难题!新框架让模型告别“结构性失明”

攻克结构化长文档检索难题!新框架让模型告别“结构性失明”

攻克结构化长文档检索难题!新框架让模型告别“结构性失明”

AI读不懂HTML、Markdown长文档的标题和结构,找信息总踩坑?解决方案来了——SEAL全新对比学习框架通过带结构感知+元素对齐,让模型更懂长文。

来自主题: AI技术研报
5474 点击    2025-09-27 10:43
首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

开源框架实现100%可复现的稳定RL训练!下图是基于Qwen3-8B进行的重复实验。两次运行,一条曲线,实现了结果的完美重合,为需要高精度复现的实验场景提供了可靠保障。这就是SGLang团队联合slime团队的最新开源成果。

来自主题: AI技术研报
5474 点击    2025-09-27 10:19
谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己

谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己

谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己

OpenAI发布最新研究,却在里面夸了一波Claude。他们提出名为GDPval的新基准,用来衡量AI模型在真实世界具有经济价值的任务上的表现。具体来说,GDPval覆盖了对美国GDP贡献最大的9个行业中的44种职业,这些职业年均创收合计达3万亿美元。任务基于平均拥有14年经验的行业专家的代表性工作设计而成。

来自主题: AI技术研报
9256 点击    2025-09-26 16:03
给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

随着多模态大语言模型(MLLMs)在视觉问答、图像描述等任务中的广泛应用,其推理能力尤其是数学几何问题的解决能力,逐渐成为研究热点。 然而,现有方法大多依赖模板生成图像 - 文本对,泛化能力有限,且视

来自主题: AI技术研报
5588 点击    2025-09-26 13:30