AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
10%训练数据超越100%表现,机器人学习领域迎来重要突破

10%训练数据超越100%表现,机器人学习领域迎来重要突破

10%训练数据超越100%表现,机器人学习领域迎来重要突破

第一作者陈昌和是美国密歇根大学的研究生,师从 Nima Fazeli 教授,研究方向包括基础模型、机器人学习与具身人工智能,专注于机器人操控、物理交互与控制优化。

来自主题: AI技术研报
9228 点击    2025-06-11 14:29
揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路

揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路

揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路

近年来,大语言模型(LLM)以其卓越的文本生成和逻辑推理能力,深刻改变了我们与技术的互动方式。然而,这些令人瞩目的表现背后,LLM的内部机制却像一个神秘的“黑箱”,让人难以捉摸其决策过程。

来自主题: AI技术研报
5416 点击    2025-06-11 14:29
刚刚,OpenAI最强推理模型o3-pro诞生!碾压Gemini 2.5 Pro击穿底价

刚刚,OpenAI最强推理模型o3-pro诞生!碾压Gemini 2.5 Pro击穿底价

刚刚,OpenAI最强推理模型o3-pro诞生!碾压Gemini 2.5 Pro击穿底价

最强推理模型一夜易主!深夜,o3-pro毫无预警上线,刷爆数学、编程、科学基准,强势碾压o1-pro和o3。更惊艳的是,o3价格直接暴降80%,叫板Gemini 2.5 Pro。

来自主题: AI技术研报
6378 点击    2025-06-11 13:20
OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密

OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密

OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密

SemiAnalysis全新硬核爆料,意外揭秘了OpenAI全新模型的秘密?据悉,新模型介于GPT-4.1和GPT-4.5之间,而下一代推理模型o4将基于GPT-4.1训练,而背后最大功臣,就是强化学习。

来自主题: AI技术研报
6282 点击    2025-06-11 12:20
14种主流Prompt技术,顶级团队2000次实验,只有这几种真能打

14种主流Prompt技术,顶级团队2000次实验,只有这几种真能打

14种主流Prompt技术,顶级团队2000次实验,只有这几种真能打

现在市面上有46种Prompt工程技术,但真正能在软件工程任务中发挥作用的,可能只有那么几种。来自巴西联邦大学、加州大学尔湾分校等顶级院校的研究者们,花了大量时间和计算资源,调研了58种,整理了46种,最终筛选测试了14种主流提示技术在10个软件工程任务上的表现,用了4个不同的大模型(包括咱们的Deepseek-V3),总共跑了2000多次实验。

来自主题: AI技术研报
9050 点击    2025-06-11 11:51
时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8

时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8

时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8

在大语言模型蓬勃发展的背景下,Transformer 架构依然是不可替代的核心组件。尽管其自注意力机制存在计算复杂度为二次方的问题,成为众多研究试图突破的重点

来自主题: AI技术研报
7033 点击    2025-06-11 11:43
眼馋苹果刚发布的液态玻璃效果?藏师傅教你提示词一键实现

眼馋苹果刚发布的液态玻璃效果?藏师傅教你提示词一键实现

眼馋苹果刚发布的液态玻璃效果?藏师傅教你提示词一键实现

反正只要是苹果的一定会有很多人跟风,所以这个效果在接下来的一段时间你一定会频繁的看见,或者被要求使用。这里藏师傅也是一上午探索了一下如何将液态玻璃效果融入到网页生成的提示词里面,没想到真让我搞了个差不多的出来。

来自主题: AI技术研报
7836 点击    2025-06-11 11:32
华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断

华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断

华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断

大模型的落地能力,核心在于性能的稳定输出,而性能稳定的底层支撑,是强大的算力集群。其中,构建万卡级算力集群,已成为全球公认的顶尖技术挑战。

来自主题: AI技术研报
7539 点击    2025-06-10 17:05
一块4090搞定实时视频生成!Adobe黑科技来了

一块4090搞定实时视频生成!Adobe黑科技来了

一块4090搞定实时视频生成!Adobe黑科技来了

游戏直播等实时渲染门槛要被击穿了?Adobe 的一项新研究带来新的可能。

来自主题: AI技术研报
5651 点击    2025-06-10 16:52
让AI自己设计芯片!中国科学院发布「启蒙」,芯片全流程自动设计

让AI自己设计芯片!中国科学院发布「启蒙」,芯片全流程自动设计

让AI自己设计芯片!中国科学院发布「启蒙」,芯片全流程自动设计

近日,中国科学院计算技术研究所联合软件研究所推出「启蒙」系统,基于AI技术,实现处理器芯片软硬件各个步骤的全自动设计,达到或部分超越人类专家手工设计水平。

来自主题: AI技术研报
7266 点击    2025-06-10 16:43
视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?

来自主题: AI技术研报
6386 点击    2025-06-10 16:18
比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临

比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临

比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临

王劲,香港大学计算机系二年级博士生,导师为罗平老师。研究兴趣包括多模态大模型训练与评测、伪造检测等,有多项工作发表于 ICML、CVPR、ICCV、ECCV 等国际学术会议。

来自主题: AI技术研报
7200 点击    2025-06-10 15:02
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。 当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。

来自主题: AI技术研报
6192 点击    2025-06-10 14:45
沃顿商学院重磅Prompt报告:别再对AI"循循善诱"了!我们在错误地使用它!

沃顿商学院重磅Prompt报告:别再对AI"循循善诱"了!我们在错误地使用它!

沃顿商学院重磅Prompt报告:别再对AI"循循善诱"了!我们在错误地使用它!

宾夕法尼亚大学沃顿商学院生成式AI实验室刚刚发布了两份重磅研究报告,通过严格的科学实验揭示了一个令人震惊的事实:我们可能一直在用错误的方式与AI对话。这不是胡说八道,而是基于近4万次实验得出的硬核数据推理的结论。

来自主题: AI技术研报
5002 点击    2025-06-10 11:33
60%情况下,主流大模型没理解风险只是装懂!别被模型的“安全答案”骗了

60%情况下,主流大模型没理解风险只是装懂!别被模型的“安全答案”骗了

60%情况下,主流大模型没理解风险只是装懂!别被模型的“安全答案”骗了

让推理模型针对风险指令生成了安全输出,表象下藏着认知危机: 即使生成合规答案,超60%的案例中模型并未真正理解风险。

来自主题: AI技术研报
4889 点击    2025-06-10 11:00
影视级3D生成新王:Direct3D-S2全面开源!8块GPU超越闭源登顶HF

影视级3D生成新王:Direct3D-S2全面开源!8块GPU超越闭源登顶HF

影视级3D生成新王:Direct3D-S2全面开源!8块GPU超越闭源登顶HF

3D生成模型高光时刻来临!DreamTech联手南大、复旦、牛津发布的Direct3D-S2登顶HuggingFace热榜。仅用8块GPU训练,效果超闭源模型,直指影视级精细度。

来自主题: AI技术研报
7525 点击    2025-06-09 16:52
出海赚美金:用n8n搭建「Reddit商机搜索与洞察」 AI Agent自动化寻找蓝海市场,发现真实痛点

出海赚美金:用n8n搭建「Reddit商机搜索与洞察」 AI Agent自动化寻找蓝海市场,发现真实痛点

出海赚美金:用n8n搭建「Reddit商机搜索与洞察」 AI Agent自动化寻找蓝海市场,发现真实痛点

前天,生财有术的老板亦仁发布了一条「超级标」(至少价值千万以上的现象级行业机会): 随着GPT-4o图像革命而来的,是无数的创业机会。

来自主题: AI技术研报
6530 点击    2025-06-09 16:41
3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成

3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成

3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成

Time-R1通过三阶段强化学习提升模型的时间推理能力,其核心是动态奖励机制,根据任务难度和训练进程调整奖励,引导模型逐步提升性能,最终使3B小模型实现全面时间推理能力,超越671B模型。

来自主题: AI技术研报
6059 点击    2025-06-09 15:54
破解自驾数据难题!毫米波雷达可控仿真技术新框架来了

破解自驾数据难题!毫米波雷达可控仿真技术新框架来了

破解自驾数据难题!毫米波雷达可控仿真技术新框架来了

以神经网络为核心引擎,让AI承担雷达仿真数据生成任务,还实现对雷达物理特性的建模与控制——

来自主题: AI技术研报
7162 点击    2025-06-09 14:58
华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?

华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?

华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?

你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译、甚至帮医生看 CT 片,这些能力背后离不开一个默默工作的 "超级大脑工厂"——AI 算力集群。

来自主题: AI技术研报
6020 点击    2025-06-09 14:56
CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架

CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架

CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架

本文第一作者为前阿里巴巴达摩院高级技术专家,现一年级博士研究生满远斌,研究方向为高效多模态大模型推理和生成系统。通信作者为第一作者的导师,UTA 计算机系助理教授尹淼。尹淼博士目前带领 7 人的研究团队,主要研究方向为多模态空间智能系统,致力于通过软件和系统的联合优化设计实现空间人工智能的落地。

来自主题: AI技术研报
8070 点击    2025-06-09 14:51
AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板

AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板

AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板

用AI来整理会议内容,已经是人类的常规操作。 不过,你猜怎么着?面对1000道多步骤音频推理题时,30款AI模型竟然几乎全军覆没,很多开源模型表现甚至接近瞎猜。

来自主题: AI技术研报
8056 点击    2025-06-09 14:43