AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
VaseVQA:考古领域实现专家级,诊断+补弱RL框架

VaseVQA:考古领域实现专家级,诊断+补弱RL框架

VaseVQA:考古领域实现专家级,诊断+补弱RL框架

在文化遗产与人工智能的交叉处,有一类问题既美也难:如何让机器「看懂」古希腊的陶器——不仅能识别它的形状或图案,还能推断年代、产地、工坊甚至艺术归属?有研究人员给出了一条实用且富有启发性的答案:把大型多模态模型(MLLM)放在「诊断—补弱—精细化评估」的闭环中训练,并配套一个结构化的评测基准,从而让模型在高度专业化的文化遗产领域表现得更接近专家级能力。

来自主题: AI技术研报
6810 点击    2025-10-29 09:53
蚂蚁新报告!全盘公开Ling 2.0训练细节,性能突破的四大关键曝光

蚂蚁新报告!全盘公开Ling 2.0训练细节,性能突破的四大关键曝光

蚂蚁新报告!全盘公开Ling 2.0训练细节,性能突破的四大关键曝光

蚂蚁集团这波操作大圈粉!智东西10月28日报道,10月25日,蚂蚁集团在arXiv上传了一篇技术报告,一股脑将自家2.0系列大模型训练的独家秘籍全盘公开。今年9月至今,蚂蚁集团百灵大模型Ling 2.0系列模型陆续亮相,其万亿参数通用语言模型Ling-1T多项指标位居开源模型的榜首

来自主题: AI技术研报
8702 点击    2025-10-28 21:47
DeepMind再登Nature:AI Agent造出了最强RL算法!

DeepMind再登Nature:AI Agent造出了最强RL算法!

DeepMind再登Nature:AI Agent造出了最强RL算法!

当AI开始「自己学会学习」,人类的角色正在被重写。DeepMind最新研究DiscoRL,让智能体在多环境交互中自主发现强化学习规则——无需人类设计算法。它在Atari基准中击败MuZero,在从未见过的游戏中依旧稳定高效。

来自主题: AI技术研报
9531 点击    2025-10-28 14:56
大模型在具身推理上「翻车」了?4496 道题全面揭示短板

大模型在具身推理上「翻车」了?4496 道题全面揭示短板

大模型在具身推理上「翻车」了?4496 道题全面揭示短板

具身智能是近年来非常火概念。一个智能体(比如人)能够在环境中完成感知、理解与决策的闭环,并通过环境反馈不断进入新一轮循环,直至任务完成。这一过程往往依赖多种技能,涵盖了底层视觉对齐,空间感知,到上层决策的不同能力,这些能力便是广义上的具身智能。

来自主题: AI技术研报
6202 点击    2025-10-28 13:44
刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次

刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次

刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次

刚刚,不发论文、爱发博客的 Thinking Machines Lab (以下简称 TML)再次更新,发布了一篇题为《在策略蒸馏》的博客。在策略蒸馏(on-policy distillation)是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时,TML 发现在策略蒸馏可以极低的成本超越其他方法。

来自主题: AI技术研报
7876 点击    2025-10-28 10:50
开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

学界杀入主赛道!UCL 校园团队 EuniAI 抛出开源智能体 Prometheus,在 SWE-bench Verified 上 71.2% Pass@1、主榜实锤合并;成本低至 $0.23/issue。

来自主题: AI技术研报
9477 点击    2025-10-28 10:34
OpenAI 的经济蓝图,从日本谈起

OpenAI 的经济蓝图,从日本谈起

OpenAI 的经济蓝图,从日本谈起

OpenAI 发布了一份报告: AI in Japan: OpenAI’s Economic Blueprint 如何利用 AI,加速创新、增强竞争力,并推动可持续、包容性的增长

来自主题: AI技术研报
8578 点击    2025-10-28 10:19
推理效率狂飙60倍:DiDi-Instruct让扩散大模型16步超越千步GPT

推理效率狂飙60倍:DiDi-Instruct让扩散大模型16步超越千步GPT

推理效率狂飙60倍:DiDi-Instruct让扩散大模型16步超越千步GPT

近日,来自普渡大学、德克萨斯大学、新加坡国立大学、摩根士丹利机器学习研究、小红书 hi-lab 的研究者联合提出了一种对离散扩散大语言模型的后训练方法 —— Discrete Diffusion Divergence Instruct (DiDi-Instruct)。经过 DiDi-Instruct 后训练的扩散大语言模型可以以 60 倍的加速超越传统的 GPT 模型和扩散大语言模型。

来自主题: AI技术研报
8854 点击    2025-10-28 09:40
超94%类别第一!3D点云异常检测与修复新SOTA | ICCV'25

超94%类别第一!3D点云异常检测与修复新SOTA | ICCV'25

超94%类别第一!3D点云异常检测与修复新SOTA | ICCV'25

3D点云异常检测对制造、打印等领域至关重要,可传统方法常丢细节、难修复。上海科大与密歇根大学携手打造PASDF框架,借助「姿态对齐+连续表征」技术,达成检测修复一体化,实验显示其精准又稳定。

来自主题: AI技术研报
6842 点击    2025-10-28 09:34
让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

当今的 AI 智能体(Agent)越来越强大,尤其是像 VLM(视觉-语言模型)这样能「看懂」世界的智能体。但研究者发现一个大问题:相比于只处理文本的 LLM 智能体,VLM 智能体在面对复杂的视觉任务时,常常表现得像一个「莽撞的执行者」,而不是一个「深思熟虑的思考者」。

来自主题: AI技术研报
7255 点击    2025-10-28 09:26
数据集蒸馏,连发两篇顶会!10%样本实现全量性能,鲁棒不失真

数据集蒸馏,连发两篇顶会!10%样本实现全量性能,鲁棒不失真

数据集蒸馏,连发两篇顶会!10%样本实现全量性能,鲁棒不失真

数据集蒸馏是一种用少量合成数据替代全量数据训练模型的技术,能让模型高效又节能。WMDD和GUARD两项研究分别解决了如何保留原始数据特性并提升模型对抗扰动能力的问题,使模型在少量数据上训练时既准确又可靠。

来自主题: AI技术研报
8926 点击    2025-10-27 17:16
Efficiency Law, 物理精确世界模型,及世界模型引擎驱动的具身智能学习新范式

Efficiency Law, 物理精确世界模型,及世界模型引擎驱动的具身智能学习新范式

Efficiency Law, 物理精确世界模型,及世界模型引擎驱动的具身智能学习新范式

2025 年秋的具身智能赛道正被巨头动态点燃:特斯拉上海超级工厂宣布 Optimus 2.0 量产下线,同步开放开发者平台提供运动控制与环境感知 SDK,试图通过生态共建破解数据孤岛难题;英伟达则在 SIGGRAPH 大会抛出物理 AI 全栈方案,其 Omniverse 平台结合 Cosmos 世界模型可生成高质量合成数据,直指真机数据短缺痛点。

来自主题: AI技术研报
8553 点击    2025-10-27 17:05
NVIDIA港大MIT联合推出Fast-dLLM v2:端到端吞吐量提升2.5倍

NVIDIA港大MIT联合推出Fast-dLLM v2:端到端吞吐量提升2.5倍

NVIDIA港大MIT联合推出Fast-dLLM v2:端到端吞吐量提升2.5倍

自回归(AR)大语言模型逐 token 顺序解码的范式限制了推理效率;扩散 LLM(dLLM)以并行生成见长,但过去难以稳定跑赢自回归(AR)模型,尤其是在 KV Cache 复用、和 可变长度 支持上仍存挑战。

来自主题: AI技术研报
7375 点击    2025-10-27 16:46
看似万能的 AI,其实比你想的更脆弱和邪恶

看似万能的 AI,其实比你想的更脆弱和邪恶

看似万能的 AI,其实比你想的更脆弱和邪恶

十月,《纽约时报》发表了题为《The A.I. Prompt That Could End the World》(《那个可能终结世界的 AI 提示词》)的文章。作者 Stephen Witt 采访了多位业内人士:有 AI 先驱,图灵奖获奖者 Yoshua Bengio;以越狱测试著称的 Leonard Tang;以及专门研究模型欺骗的 Marius Hobbhahn。

来自主题: AI技术研报
9032 点击    2025-10-27 15:58
DeepSeek最会讨好,LLM太懂人情世故了,超人类50%

DeepSeek最会讨好,LLM太懂人情世故了,超人类50%

DeepSeek最会讨好,LLM太懂人情世故了,超人类50%

在一篇论文中,研究人员测试了 11 种 LLM 如何回应超过 11500 条寻求建议的查询,其中许多查询描述了不当行为或伤害。结果发现 LLM 附和用户行为的频率比人类高出 50%,即便用户的提问涉及操纵、欺骗或其他人际伤害等情境,模型仍倾向于给予肯定回应。

来自主题: AI技术研报
6603 点击    2025-10-27 15:57
打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集

打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集

打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集

在开放研究领域里,苹果似乎一整个脱胎换骨,在纯粹的研究中经常会有一些出彩的工作。这次苹果发布的研究成果的确出人意料:他们用谷歌的 Nano-banana 模型做个了视觉编辑领域的 ImageNet。

来自主题: AI技术研报
9508 点击    2025-10-27 11:13
NeurIPS 2025 Spotlight | 让检索、推理真正「合体」的小而强模型,AceSearcher来了

NeurIPS 2025 Spotlight | 让检索、推理真正「合体」的小而强模型,AceSearcher来了

NeurIPS 2025 Spotlight | 让检索、推理真正「合体」的小而强模型,AceSearcher来了

如何让一个并不巨大的开源大模型,在面对需要多步检索与复杂逻辑整合的问题时,依然像 “冷静的研究员” 那样先拆解、再查证、后归纳,最后给出可核实的结论?

来自主题: AI技术研报
6800 点击    2025-10-27 10:52
破解AI对不同上下⽂位置的敏感度不⼀致,新框架使出“解铃还须系铃人”

破解AI对不同上下⽂位置的敏感度不⼀致,新框架使出“解铃还须系铃人”

破解AI对不同上下⽂位置的敏感度不⼀致,新框架使出“解铃还须系铃人”

语言模型遭遇严重的位置偏见,即模型对不同上下⽂位置的敏感度不⼀致。模型倾向于过度关注输⼊序列中的特定位置,严重制约了它们在复杂推理、⻓⽂本理解以及模型评估等关键任务上的表现。

来自主题: AI技术研报
6038 点击    2025-10-27 10:33
可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25

可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25

可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25

聚焦大型语言模型(LLMs)的安全漏洞,研究人员提出了全新的越狱攻击范式与防御策略,深入剖析了模型在生成过程中的注意力变化规律,为LLMs安全研究提供了重要参考。论文已被EMNLP2025接收

来自主题: AI技术研报
5333 点击    2025-10-27 10:25
八年后,Meta教会了Transformer「显式思考」

八年后,Meta教会了Transformer「显式思考」

八年后,Meta教会了Transformer「显式思考」

最近的 Meta 可谓大动作不断,一边疯狂裁人,一边又高强度产出论文。

来自主题: AI技术研报
9509 点击    2025-10-27 10:18
谷歌痛失王座?港科大贾佳亚团队DreamOmni2开源,超强P图暴击Nano Banana

谷歌痛失王座?港科大贾佳亚团队DreamOmni2开源,超强P图暴击Nano Banana

谷歌痛失王座?港科大贾佳亚团队DreamOmni2开源,超强P图暴击Nano Banana

你永远无法精确描述出梵高的笔触或王家卫的光影。AI创作的未来,是让AI直接「看懂」你的灵感,而不是去揣摩你的指令。

来自主题: AI技术研报
8598 点击    2025-10-27 10:08
AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」

AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」

AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」

如何科学地给大模型「找茬」?Anthropic联合Thinking Machines发布新研究,通过30万个场景设计和极限压力测试,扒了扒OpenAI、谷歌、马斯克家AI的「人设」。那谁是老好人?谁是效率狂魔?

来自主题: AI技术研报
7198 点击    2025-10-27 10:00
让机器人「不仅会想,还能准确去做」,VLA-R1把「推理+行动」带进真实世界

让机器人「不仅会想,还能准确去做」,VLA-R1把「推理+行动」带进真实世界

让机器人「不仅会想,还能准确去做」,VLA-R1把「推理+行动」带进真实世界

在机器人与智能体领域,一个老大难问题是:当你让机器人 “把黄碗放进白色空篮子” 或 “从微波炉里把牛奶取出来放到餐桌上” 时,它不仅要看懂环境,更要解释指令、规划路径 / 可操作区域,并把这些推理落实为准确的动作。

来自主题: AI技术研报
7358 点击    2025-10-27 09:50
AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

看似无害的「废话」,也能让AI越狱?在NeurIPS 2025,哥大与罗格斯提出LARGO:不改你的提问,直接在模型「潜意识」动手脚,让它生成一段温和自然的文本后缀,却能绕过安全防护,输出本不该说的话。

来自主题: AI技术研报
6234 点击    2025-10-27 09:40
AI 时代,重新定义开发者丨最新白皮书解读

AI 时代,重新定义开发者丨最新白皮书解读

AI 时代,重新定义开发者丨最新白皮书解读

在 AI 时代,开发的边界正被重新划定。 我们能够观察到,越来越多的产品经理、数据分析师、设计师,甚至内容创作者,正在熟练地使用 Cursor、ChatGPT、DeepSeek 等 AI 工具,解决真

来自主题: AI技术研报
8696 点击    2025-10-26 22:27