AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。

来自主题: AI技术研报
8816 点击    2025-09-22 16:11
IBM发布LLM工具调用判断器ToolRM,工具调用准确率提高25%

IBM发布LLM工具调用判断器ToolRM,工具调用准确率提高25%

IBM发布LLM工具调用判断器ToolRM,工具调用准确率提高25%

Tool-Calling作为Agent的核心模块,智能体的双手,这项关键能力允许 LLM 调用外部函数,例如应用程序接口(APIs)、数据库、计算器和搜索引擎,决定了AI Agent的可执行边界。

来自主题: AI技术研报
6894 点击    2025-09-22 10:34
工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」

工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」

工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」

构建一个工业级高仿真 3D 虚拟世界,需要投入多少时间与人力?如果仅需一段描述、一张草图,AI 便可快速自动生成 —— 你相信吗?

来自主题: AI技术研报
6581 点击    2025-09-22 10:06
无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

近来,由AI生成的视频片段以前所未有的视觉冲击力席卷了整个互联网,视频生成模型创造出了许多令人惊叹的、几乎与现实无异的动态画面。

来自主题: AI技术研报
5331 点击    2025-09-22 09:21
全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代

全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代

全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代

近日,明略科技推出的基于多模态基础模型的网页 GUI 智能体 Mano,凭借其强大的性能,在行业内公认的两大挑战基准 ——Mind2Web 和 OSWorld 上同时刷新纪录,取得当前最佳成绩(SOTA)。

来自主题: AI技术研报
7792 点击    2025-09-21 19:20
Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型

Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型

Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型

基于这一挑战,我们提出了 Mini-Omni-Reasoner——一种专为对话场景打造的实时推理新范式。它通过「Thinking-in-Speaking」实现边思考边表达,既能实时反馈、输出自然流畅的语音内容,又能保持高质量且可解释的推理过程。

来自主题: AI技术研报
6086 点击    2025-09-21 11:10
阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁

阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁

阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁

阿里巴巴集团安全部联合清华大学、复旦大学、东南大学、新加坡南洋理工等高校,联合发布技术报告;其理念与最近OpenAI发布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不谋而合。

来自主题: AI技术研报
5849 点击    2025-09-21 11:09
集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源

集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源

集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源

创智、基流、智谱、联通、北航、清华、东南联合打造了高效率、高可靠、高可视的 GPU 集合通信库 VCCL(Venus Collective Communication Library),VCCL 已部署于多个生产环境集群中。

来自主题: AI技术研报
6125 点击    2025-09-21 11:08
马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错

马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错

马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错

字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp,这是首个完全开源的金融搜索与推理基准测试。该基准包含635个金融专家精心设计的问题,覆盖全球和大中华两个市场,并在多个主流模型产品上进行了全面评测。

来自主题: AI技术研报
6410 点击    2025-09-21 11:07
理解帮助生成?RecA自监督训练让统一多模态模型直升SOTA

理解帮助生成?RecA自监督训练让统一多模态模型直升SOTA

理解帮助生成?RecA自监督训练让统一多模态模型直升SOTA

谢集,浙江大学竺可桢学院大四学生,于加州大学伯克利分校(BAIR)进行访问,研究方向为统一多模态理解生成大模型。第二作者为加州大学伯克利分校的 Trevor Darrell,第三作者为华盛顿大学的 Luke Zettlemoyer,通讯作者是 XuDong Wang, Meta GenAl Research Scientist、

来自主题: AI技术研报
4798 点击    2025-09-21 10:42
抄作业了,全球 15 款增速最快的 AI App 都是谁?|2025年8月AI百强榜

抄作业了,全球 15 款增速最快的 AI App 都是谁?|2025年8月AI百强榜

抄作业了,全球 15 款增速最快的 AI App 都是谁?|2025年8月AI百强榜

我们对非凡产研对 2025 年 8 月 AI APP 的 全球下载增速 Top10 与 全球月活增速 Top10 进行了复盘。两个榜单存在部分重叠,最终覆盖 15 款产品。这些应用的增长曲线很亮眼,但对不少人而言仍较陌生。

来自主题: AI技术研报
7126 点击    2025-09-20 13:07
浙江大学联合华为发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型

浙江大学联合华为发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型

浙江大学联合华为发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型

2025年9月18日,由浙江大学计算机科学与技术学院院长、区块链与数据安全全国重点实验室常务副主任任奎教授团队联合华为技术有限公司计算产品线共同研发的国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型在“华为全联接大会2025”正式发布。

来自主题: AI技术研报
6368 点击    2025-09-20 13:05
让 llama.cpp 支持多模态向量模型

让 llama.cpp 支持多模态向量模型

让 llama.cpp 支持多模态向量模型

几周前,我们发布了 jina-embeddings-v4 模型的 GGUF 版本,大幅降低了显存占用,提升了运行效率。不过,受限于 llama.cpp 上游版本的运行时,当时的 GGUF 模型只能当作文本向量模型使用而无法支持多模态向量的输出。

来自主题: AI技术研报
7163 点击    2025-09-20 09:42
文心最新模型直接硬刚Gemini 2.5 pro & GPT5,真的这么神吗?

文心最新模型直接硬刚Gemini 2.5 pro & GPT5,真的这么神吗?

文心最新模型直接硬刚Gemini 2.5 pro & GPT5,真的这么神吗?

文心最近发布了两个模型ERNIE-4.5-21B-A3B-Thinking和X1.1 在海外开发者社群中讨论很火爆 甚至有老外称这是ta 认为的最强中国模型。 真的这么神吗?饼干哥哥做了一波实测案例,

来自主题: AI技术研报
6032 点击    2025-09-20 09:42
宝可梦游戏:下一代 AI 的训练场 | Kevin Lu, Thinking Machines

宝可梦游戏:下一代 AI 的训练场 | Kevin Lu, Thinking Machines

宝可梦游戏:下一代 AI 的训练场 | Kevin Lu, Thinking Machines

宝可梦游戏的开放世界、长周期、巨大行动空间和高难度特性,为训练能应对现实世界复杂性(如稀疏奖励、探索挑战)的AI提供了理想沙盒。对比AI的机械尝试和人类的“乐趣驱动”探索,文章阐释人类特有的好奇心美学对于科学发现的关键价值,并探讨AI赋能游戏设计(个性化体验、无限故事/行动空间)以优化人类乐趣的潜力。

来自主题: AI技术研报
7280 点击    2025-09-19 13:53
找ChatGPT谈恋爱多是“日久生情”?!MIT&哈佛正经研究

找ChatGPT谈恋爱多是“日久生情”?!MIT&哈佛正经研究

找ChatGPT谈恋爱多是“日久生情”?!MIT&哈佛正经研究

终于有科学家对“AI伴侣”这事儿展开正经研究了!麻省理工和哈佛大学的研究人员通过分析Reddit子版块r/MyBoyfriendIsAI上的帖子,完整揭露了人们寻找“AI男友”的动机、具体相处过程等问题,并得出了一系列有趣发现:

来自主题: AI技术研报
6099 点击    2025-09-19 13:51
119 页硬核报告丨AI 2030:算力、能源与科研的未来预测

119 页硬核报告丨AI 2030:算力、能源与科研的未来预测

119 页硬核报告丨AI 2030:算力、能源与科研的未来预测

Epoch AI 最近受 Google DeepMind 委托编写了一份分析报告,探讨这种规模扩张(Scaling)在计算、投资、数据、硬件和能源方面将带来哪些影响。在报告中,进一步探讨了这种规模扩张将赋予的未来 AI 能力,尤其是在科研领域,而这正是领先 AI 开发者关注的重点。

来自主题: AI技术研报
7327 点击    2025-09-19 09:50
B站出海的强有力支柱:最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代

B站出海的强有力支柱:最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代

B站出海的强有力支柱:最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代

最近在 B 站上,你是否也刷到过一些 “魔性” 又神奇的 AI 视频?比如英文版《甄嬛传》、坦克飞天、曹操大战孙悟空…… 这些作品不仅完美复现了原角色的音色,连情感和韵律都做到了高度还原!更让人惊讶的是,它们居然全都是靠 AI 生成的!

来自主题: AI技术研报
5987 点击    2025-09-18 15:54
6.1B打平40B Dense模型,蚂蚁开源最新MoE模型Ling-flash-2.0

6.1B打平40B Dense模型,蚂蚁开源最新MoE模型Ling-flash-2.0

6.1B打平40B Dense模型,蚂蚁开源最新MoE模型Ling-flash-2.0

今天,蚂蚁百灵大模型团队正式开源其最新 MoE 大模型 ——Ling-flash-2.0。作为 Ling 2.0 架构系列的第三款模型,Ling-flash-2.0 以总参数 100B、激活仅 6.1B(non-embedding 激活 4.8B)的轻量级配置,在多个权威评测中展现出媲美甚至超越 40B 级别 Dense 模型和更大 MoE 模型的卓越性能。

来自主题: AI技术研报
7482 点击    2025-09-18 15:42
GPT-5攻入数学圈,证明定理快过博士生?网友热议AI新角色

GPT-5攻入数学圈,证明定理快过博士生?网友热议AI新角色

GPT-5攻入数学圈,证明定理快过博士生?网友热议AI新角色

当GPT-5第一次被写进数学论文,舆论瞬间炸开。有人惊呼「AI 数学家诞生」,有人却冷静提醒:它只是把熟悉的工具快速拼接。于是,一个新的问题被摆到台前:这究竟是科研的加速器,还是博士培养的绊脚石?

来自主题: AI技术研报
6990 点击    2025-09-18 15:41
OneSearch,揭开快手电商搜索「一步到位」的秘技

OneSearch,揭开快手电商搜索「一步到位」的秘技

OneSearch,揭开快手电商搜索「一步到位」的秘技

还有一个多月,一年一度的“双十一”购物节就要来了! 作为消费者,你通常会如何寻找心仪的商品呢?或许你兴致勃勃地在搜索框里敲下关键词,却发现呈现出来的商品列表总是差强人意。那么,问题究竟出在哪里?

来自主题: AI技术研报
7135 点击    2025-09-18 15:27
7 小时连续重构不掉线!一骑绝尘的Claude 终于遇到对手:Greg Brockman亲自解读AI编程重大突破

7 小时连续重构不掉线!一骑绝尘的Claude 终于遇到对手:Greg Brockman亲自解读AI编程重大突破

7 小时连续重构不掉线!一骑绝尘的Claude 终于遇到对手:Greg Brockman亲自解读AI编程重大突破

9 月 16 日,OpenAI 正式推出一款新模型 GPT-5-Codex ,这是一个经过微调的 GPT-5 变体,专门为其各种 AI 辅助编程工具而设计。该公司表示,新模型 GPT-5-Codex 的“思考”时间比之前的模型更加动态,完成一项编码任务所需的时间从几秒到七个小时不等。因此,它在代理编码基准测试中表现更佳。

来自主题: AI技术研报
6524 点击    2025-09-18 15:19
腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」

腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」

腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」

自从 Google Gemini 将数学奥赛的成功部分归功于「并行思维」后,如何让大模型掌握这种并行探索多种推理路径的能力,成为了学界关注的焦点。

来自主题: AI技术研报
6830 点击    2025-09-18 15:04
高阶程序,让AI从技术可行到商业可信的最后一公里

高阶程序,让AI从技术可行到商业可信的最后一公里

高阶程序,让AI从技术可行到商业可信的最后一公里

很多人相信,我们已经进入了所谓的「AI 下半场」,一个模型能力足够强大、应用理应爆发的时代。然而,对于这个时代真正缺少的东西,不同的人有不同的侧重,比如(前)OpenAI 研究者姚顺雨强调了评估的重要性,著名数学家陶哲轩则指出必须降低成本才能实现规模化应用。

来自主题: AI技术研报
4815 点击    2025-09-18 14:55
突破单链思考上限,清华团队提出原生「并行思考」scale范式

突破单链思考上限,清华团队提出原生「并行思考」scale范式

突破单链思考上限,清华团队提出原生「并行思考」scale范式

近年来,大语言模型(LLMs)在复杂推理任务上的能力突飞猛进,这在很大程度上得益于深度思考的策略,即通过增加测试时(test-time)的计算量,让模型生成更长的思维链(Chain-of-Thought)。

来自主题: AI技术研报
5899 点击    2025-09-18 14:49
微软警告:大模型ICL并非真正意义上的学习,你的AI Agent随时可能“失忆”

微软警告:大模型ICL并非真正意义上的学习,你的AI Agent随时可能“失忆”

微软警告:大模型ICL并非真正意义上的学习,你的AI Agent随时可能“失忆”

上下文学习”(In-Context Learning,ICL),是大模型不需要微调(fine-tuning),仅通过分析在提示词中给出的几个范例,就能解决当前任务的能力。您可能已经对这个场景再熟悉不过了:您在提示词里扔进去几个例子,然后,哇!大模型似乎瞬间就学会了一项新技能,表现得像个天才。

来自主题: AI技术研报
5327 点击    2025-09-18 14:44
让机器人「不只是走路」,Nav-R1引领带推理的导航新时代

让机器人「不只是走路」,Nav-R1引领带推理的导航新时代

让机器人「不只是走路」,Nav-R1引领带推理的导航新时代

这篇题为《Nav-R1: Reasoning and Navigation in Embodied Scenes》的新论文,提出了一个新的「身体体现式(embodied)基础模型」(foundation model),旨在让机器人或智能体在 3D 环境中能够更好地结合「感知 + 推理 + 行动」。简单说,它不仅「看到 + 听到+开动马达」,还加入清晰的中间「思考」环节。

来自主题: AI技术研报
5185 点击    2025-09-18 14:28
来自MIT的最新研究-RL's Razor|展望LLMs Post-Training下的前沿探索与思考

来自MIT的最新研究-RL's Razor|展望LLMs Post-Training下的前沿探索与思考

来自MIT的最新研究-RL's Razor|展望LLMs Post-Training下的前沿探索与思考

来自MIT Improbable AI Lab的研究者们最近发表了一篇题为《RL's Razor: Why Online Reinforcement Learning Forgets Less》的论文,系统性地回答了这个问题,他们不仅通过大量实验证实了这一现象,更进一步提出了一个简洁而深刻的解释,并将其命名为 “RL's Razor”(RL的剃刀)。

来自主题: AI技术研报
5632 点击    2025-09-18 14:26
开源Agent模型榜第一名,现在是阿里通义DeepResearch

开源Agent模型榜第一名,现在是阿里通义DeepResearch

开源Agent模型榜第一名,现在是阿里通义DeepResearch

通义DeepResearch团队 投稿 量子位 | 公众号 QbitAI 阿里开源旗下首个深度研究Agent模型通义DeepResearch! 相比于基于基础模型的ReAct Agent和闭源Deep

来自主题: AI技术研报
6736 点击    2025-09-18 13:50