AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力,但现有方法在训练过程中面临两大核心挑战:

来自主题: AI技术研报
4758 点击    2025-05-29 14:48
原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作,首次提出了一种从静态图像直接生成同步音视频内容的生成框架。其核心设计 JointDiT(Joint Diffusion Transformer)框架实现了图像 → 动态视频 + 声音的高质量联合生成。

来自主题: AI技术研报
7590 点击    2025-05-29 14:20
MetaMind元认知多智能体,让LLM理解对话背后的深层意图,首次达到人类水平 | 最新

MetaMind元认知多智能体,让LLM理解对话背后的深层意图,首次达到人类水平 | 最新

MetaMind元认知多智能体,让LLM理解对话背后的深层意图,首次达到人类水平 | 最新

MetaMind是一个多智能体框架,专门解决大语言模型在社交认知方面的根本缺陷。传统的 LLM 常常难以应对现实世界中人际沟通中固有的模糊性和间接性,无法理解未说出口的意图、隐含的情绪或文化敏感线索。MetaMind首次使LLMs在关键心理理论(ToM)任务上达到人类水平表现。

来自主题: AI技术研报
8959 点击    2025-05-29 10:31
爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了

爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了

爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了

来自华盛顿大学、AI2、UC伯克利研究团队证实,「伪奖励」(Spurious Rewards)也能带来LLM推理能力提升的惊喜。

来自主题: AI技术研报
6907 点击    2025-05-29 10:18
准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了

准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了

准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了

又是一个让程序员狂欢的研究!来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架,直接把代码定位准确率拉到了 92.7% 的新高度。该研究已被 ACL 2025 录用。

来自主题: AI技术研报
5918 点击    2025-05-29 10:03
低Token高精度!字节复旦推出自适应推理框架CAR

低Token高精度!字节复旦推出自适应推理框架CAR

低Token高精度!字节复旦推出自适应推理框架CAR

过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。

来自主题: AI技术研报
5312 点击    2025-05-28 16:36
清华创业团队打造!国内首个专注AI推理Serverless GPU平台

清华创业团队打造!国内首个专注AI推理Serverless GPU平台

清华创业团队打造!国内首个专注AI推理Serverless GPU平台

你有没有遇到过这样的算力困境:买了 GPU,用不了几次就闲置烧钱,偶尔想用的时候却一卡难求?

来自主题: AI技术研报
4744 点击    2025-05-28 15:09
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

在日益强调“思维能力”的大语言模型时代,如何让模型在“难”的问题上展开推理,而不是无差别地“想个不停”,成为当前智能推理研究的重要课题。

来自主题: AI技术研报
4722 点击    2025-05-28 14:52
全球顶尖AI做物理,被人类按地摩擦?不懂推理大翻车,本科生碾压

全球顶尖AI做物理,被人类按地摩擦?不懂推理大翻车,本科生碾压

全球顶尖AI做物理,被人类按地摩擦?不懂推理大翻车,本科生碾压

最顶尖的AI模型,做起奥数题来已经和人类相当,那做物理题水平如何呢?港大等机构的研究发现:即使GPT-4o、Claude 3.7 Sonnet这样的最强模型,做物理题也翻车了,准确率直接被人类专家碾压!

来自主题: AI技术研报
8022 点击    2025-05-28 11:58
开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

基于开源模型继续在下游任务上使用私有下游数据进行微调,得到在下游任务表现更好的专有模型,已经成为了一类标准范式。

来自主题: AI技术研报
8914 点击    2025-05-28 09:55
强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

上下文长度达 13 万 token,适用于多段文档综合分析、金融、法律、科研等复杂领域任务。

来自主题: AI技术研报
5816 点击    2025-05-28 09:42
Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o

Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o

Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o

Meta推出KernelLLM,这个基于Llama 3.1微调的8B模型,竟能将PyTorch代码自动转换为高效Triton GPU内核。实测数据显示,它的单次推理性能超越GPT-4o和DeepSeek V3,多次生成时得分飙升。

来自主题: AI技术研报
5840 点击    2025-05-27 18:00
One RL to See Them All?一个强化学习统一视觉-语言任务!

One RL to See Them All?一个强化学习统一视觉-语言任务!

One RL to See Them All?一个强化学习统一视觉-语言任务!

强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。然而,RL 在推理任务之外的应用,尤其是在目标检测 和目标定位等感知密集型任务中的应用,仍有待深入探索。

来自主题: AI技术研报
8059 点击    2025-05-27 17:33
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。

来自主题: AI技术研报
9103 点击    2025-05-27 16:53
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强

北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强

北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强

随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能?如何建立更全面、更可靠的 AI 评估体系?北京大学宋国杰教授团队最新综述论文(共 63 页,包含 500 篇引文),首次尝试系统性梳理答案。

来自主题: AI技术研报
8108 点击    2025-05-27 16:13
红杉中国xbench全球首发,AI智能体真实战力揭榜!

红杉中国xbench全球首发,AI智能体真实战力揭榜!

红杉中国xbench全球首发,AI智能体真实战力揭榜!

刚刚,全新AI基准测试工具xbench诞生,通过双轨评估体系和长青评估机制,追踪模型能力与实际场景价值。

来自主题: AI技术研报
8935 点击    2025-05-27 14:04
3步轻松微调Qwen3,本地电脑就能搞,这个方案可以封神了!【喂饭级教程】

3步轻松微调Qwen3,本地电脑就能搞,这个方案可以封神了!【喂饭级教程】

3步轻松微调Qwen3,本地电脑就能搞,这个方案可以封神了!【喂饭级教程】

大家好,我是袋鼠帝 今天给大家带来的是一个带WebUI,无需代码的超简单的本地大模型微调方案(界面操作),实测微调之后的效果也是非常不错。

来自主题: AI技术研报
7165 点击    2025-05-27 13:38
与Gemini Diffusion共振!首个扩散式「发散思维链」来了

与Gemini Diffusion共振!首个扩散式「发散思维链」来了

与Gemini Diffusion共振!首个扩散式「发散思维链」来了

近年来,思维链在大模型训练和推理中愈发重要。近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大化模型最终答案的正确率。

来自主题: AI技术研报
5907 点击    2025-05-27 13:21
99%的人都理解错了,AI Agent ≠ Agentic AI,康奈尔大学发33页论文澄清关键区别。

99%的人都理解错了,AI Agent ≠ Agentic AI,康奈尔大学发33页论文澄清关键区别。

99%的人都理解错了,AI Agent ≠ Agentic AI,康奈尔大学发33页论文澄清关键区别。

TL;DR:如果您有一个AI产品,用户问您这是AI Agent还是Agentic AI?如果您回答不出来,或者认为这两个概念是一回事,那您可能需要重新审视自己的技术认知了。不过没关系,因为99%的人都不知道,现在您只需要看完这篇文章就可以了。

来自主题: AI技术研报
6021 点击    2025-05-27 12:40
TPU vs GPU: 2025年会有何不同?

TPU vs GPU: 2025年会有何不同?

TPU vs GPU: 2025年会有何不同?

AI无处不在——从聊天机器人、推荐引擎到语音助手和ChatGPT或谷歌Gemini等工具。但在所有这些智能技术的背后,有一样东西经常被忽视:使这一切成为可能的硬件。

来自主题: AI技术研报
6914 点击    2025-05-27 11:21
这样更公平:用jina-reranker-m0为多模态文档打分重排

这样更公平:用jina-reranker-m0为多模态文档打分重排

这样更公平:用jina-reranker-m0为多模态文档打分重排

当你在搜索“中国队在多哈乒乓球锦标赛的成绩”时,一篇新闻报道的文本部分和你的查询的相关性是 0.7,配图的相关性 0.5;另一篇则是文本相关性为 0.6,图片也是 0.6。那么,哪一篇报道才是你真正想要的呢?

来自主题: AI技术研报
6941 点击    2025-05-27 09:57
红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试

红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试

红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试

随着基础模型的快速发展和 AI Agent 进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映 AI 的客观能力正变得越来越困难。

来自主题: AI技术研报
7016 点击    2025-05-27 09:50