AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
想知道你的LLM API被过度收费了吗?隐藏的Tokens终于可以被审计了

想知道你的LLM API被过度收费了吗?隐藏的Tokens终于可以被审计了

想知道你的LLM API被过度收费了吗?隐藏的Tokens终于可以被审计了

近年来,大型语言模型(LLM)在处理复杂任务方面取得了显著进展,尤其体现在多步推理、工具调用以及多智能体协作等高级应用中。这些能力的提升,往往依赖于模型内部一系列复杂的「思考」过程或 Agentic System 中的 Agent 间频繁信息交互。

来自主题: AI技术研报
6486 点击    2025-06-18 11:05
唐珺 林佳燕:人工智能生成内容著作权保护路径分析

唐珺 林佳燕:人工智能生成内容著作权保护路径分析

唐珺 林佳燕:人工智能生成内容著作权保护路径分析

AI生成内容著作权保护困境及解决路径。 本文旨在探讨人工智能生成内容的著作权保护问题,以平衡各方利益,推动著作权制度目标的实现,助力文化创意产业与智能科技的深度融合。

来自主题: AI技术研报
5954 点击    2025-06-18 10:54
3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%

3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%

3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%

ZPressor能高效压缩3D高斯泼溅(3DGS)模型的多视图输入,解决其在处理密集视图时的性能瓶颈,提升渲染效率和质量。

来自主题: AI技术研报
8127 点击    2025-06-18 10:50
微软已为Agent悄然调转船头,当大厂都在卷“通用Agent”

微软已为Agent悄然调转船头,当大厂都在卷“通用Agent”

微软已为Agent悄然调转船头,当大厂都在卷“通用Agent”

您有没有这样的体验?一天的工作里,您可能用GPTo3写了个方案,然后切换到Cursor或者Trae里写代码,接着又打开Notion或者飞书整理文档。每个工具都挺聪明,但它们彼此之间就像生活在平行宇宙——写方案的GPT不知道您后来写了什么代码,写代码的Cursor也不清楚您的整体规划是什么。

来自主题: AI技术研报
6281 点击    2025-06-18 10:36
通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成

通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成

通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成

本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士,近年来研究领域包括3D 重建与 4D 场景和视频生成,致力于得到一种最佳的物理世界表示模型。

来自主题: AI技术研报
7261 点击    2025-06-18 10:31
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion

大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion

大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion

当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换,好比是让学生反复做同一道题的变种,却忽略了数学题目之间内在的关联性。

来自主题: AI技术研报
7581 点击    2025-06-18 10:28
Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!

Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!

Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!

编程智能体确实厉害!Transformer作者Llion Jones初创公司,专门收集了NP难题并测试了AI智能体,结果竟在上千人竞赛中排第 21!这意味着,它已经比绝大多数人写得好了。

来自主题: AI技术研报
9204 点击    2025-06-17 17:11
北航等机构发布最新综述:大语言模型集成 | ArXiv 2025

北航等机构发布最新综述:大语言模型集成 | ArXiv 2025

北航等机构发布最新综述:大语言模型集成 | ArXiv 2025

LLM Ensemble(大语言模型集成)在近年来快速地获得了广泛关注。它指的是在下游任务推理阶段,综合考虑并利用多个大语言模型(每个模型都旨在处理用户查询),从而发挥它们各自的优势。大语言模型的广泛可得性,以及其开箱即用的特性和各个模型所具备的不同优势,极大地推动了 LLM Ensemble 领域的发展。

来自主题: AI技术研报
7505 点击    2025-06-17 17:03
沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o

沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o

沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o

NVIDIA等研究团队提出了一种革命性的AI训练范式——视觉游戏学习ViGaL。通过让7B参数的多模态模型玩贪吃蛇和3D旋转等街机游戏,AI不仅掌握了游戏技巧,还培养出强大的跨领域推理能力,在数学、几何等复杂任务上击败GPT-4o等顶级模型。

来自主题: AI技术研报
5226 点击    2025-06-17 16:53
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会

首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会

首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会

由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主会议接收!这是该领域首个全面系统的综述,为语音 AI 的未来发展指明了方向。

来自主题: AI技术研报
6457 点击    2025-06-17 16:45
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

思维链(Chain of Thought, CoT)推理方法已被证明能够显著提升大语言模型(LLMs)在复杂任务中的表现。而在多模态大语言模型(MLLMs)中,CoT 同样展现出了巨大潜力。

来自主题: AI技术研报
8125 点击    2025-06-17 10:21
SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

近年来,链式推理和强化学习已经被广泛应用于大语言模型,让大语言模型的推理能力得到了显著提升。

来自主题: AI技术研报
5860 点击    2025-06-17 10:15
AI竟会看Prompt下菜!Vibe coding普通人vs程序员,剑桥最新报告

AI竟会看Prompt下菜!Vibe coding普通人vs程序员,剑桥最新报告

AI竟会看Prompt下菜!Vibe coding普通人vs程序员,剑桥最新报告

您有没有发现一个奇怪的现象:同样是Vibe coding,有些人轻松拿到完整的Flask应用,有些人却只得到几行if-else语句?剑桥大学计算机科学与技术系的研究者们最近发布了一项研究,用科学的方法证实了我们的直觉——AI确实会"看人下菜碟"。

来自主题: AI技术研报
7267 点击    2025-06-17 10:08
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。但在真实实践中,搜索智能体的强化学习训练并未展现出预期的稳定优势。一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。

来自主题: AI技术研报
6478 点击    2025-06-17 09:46
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接突破了benchmark上限

来自主题: AI技术研报
8229 点击    2025-06-16 17:26
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3

高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3

高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3

上上周的 2025 高考已经落下了帷幕!在人工智能领域,各家大模型向数学卷发起了挑战。

来自主题: AI技术研报
8149 点击    2025-06-16 17:04
CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

AI 决策的可靠性与安全性是其实际部署的核心挑战。当前智能体广泛依赖复杂的机器学习模型进行决策,但由于模型缺乏透明性,其决策过程往往难以被理解与验证,尤其在关键场景中,错误决策可能带来严重后果。因此,提升模型的可解释性成为迫切需求。

来自主题: AI技术研报
7596 点击    2025-06-16 16:31
Claude与人类共著论文,苹果再遭打脸!实验黑幕曝光

Claude与人类共著论文,苹果再遭打脸!实验黑幕曝光

Claude与人类共著论文,苹果再遭打脸!实验黑幕曝光

苹果一篇论文,再遭打脸。研究员联手Claude Opus用一篇4页论文再反击,揭露实验设计漏洞,甚至指出部分测试无解却让模型「背锅」的华点。

来自主题: AI技术研报
7630 点击    2025-06-16 15:29
如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架

如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架

如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架

在金融科技智能化转型进程中,大语言模型以及多模态大模型(LVLM)正成为核心技术驱动力。尽管 LVLM 展现出卓越的跨模态认知能力

来自主题: AI技术研报
7184 点击    2025-06-16 15:27
技术Blog-4 | 新一代InfLLM:可训练的稀疏注意力机制

技术Blog-4 | 新一代InfLLM:可训练的稀疏注意力机制

技术Blog-4 | 新一代InfLLM:可训练的稀疏注意力机制

本文深入剖析 MiniCPM4 采用的稀疏注意力结构 InfLLM v2。作为新一代基于 Transformer 架构的语言模型,MiniCPM4 在处理长序列时展现出令人瞩目的效率提升。传统Transformer的稠密注意力机制在面对长上下文时面临着计算开销迅速上升的趋势,这在实际应用中造成了难以逾越的性能瓶颈。

来自主题: AI技术研报
6064 点击    2025-06-16 15:24
近期必读!Devin VS Anthropic 的多智能体构建方法论

近期必读!Devin VS Anthropic 的多智能体构建方法论

近期必读!Devin VS Anthropic 的多智能体构建方法论

昨天最热的的两篇文章是关于多智能体系统构建的讨论。 先是 Anthropic 发布了他们在深度搜索多智能体构建过程中的一些经验,具体:包括多智能体系统的优势、架构概览、提示工程与评估、智能体的有效评估等方面。

来自主题: AI技术研报
8905 点击    2025-06-16 10:17