AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

在家庭服务机器人领域,如何让机器人理解开放环境中的自然语言指令、动态规划行动路径并精准执行操作,一直是学界和工业界的核心挑战。

来自主题: AI技术研报
5764 点击    2025-06-21 16:56
打破推荐系统「信息孤岛」!中科大与华为提出首个生成式多阶段统一框架,性能全面超越 SOTA

打破推荐系统「信息孤岛」!中科大与华为提出首个生成式多阶段统一框架,性能全面超越 SOTA

打破推荐系统「信息孤岛」!中科大与华为提出首个生成式多阶段统一框架,性能全面超越 SOTA

在信息爆炸的时代,推荐系统已成为我们获取资讯、商品和服务的核心入口。无论是电商平台的 “猜你喜欢”,还是内容应用的信息流,背后都离不开推荐算法的默默耕耘

来自主题: AI技术研报
5761 点击    2025-06-21 12:53
AI App 2024年赚了12亿美元,谁在给AI氪金?

AI App 2024年赚了12亿美元,谁在给AI氪金?

AI App 2024年赚了12亿美元,谁在给AI氪金?

2024年全球AI移动应用收入达12亿美元,同比猛增179%。图片/视频生成应用主要由亚洲市场驱动,细分需求兴起;ChatBot领域ChatGPT占据主导,但套壳产品表现意外强劲,用户分层明显(高知男性与年轻女性为主)。AI赋能生产力工具收入显著增长34.9%,但大厂优势依旧显著。

来自主题: AI技术研报
6072 点击    2025-06-21 11:32
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源

国产SOTA新模型精准get“画(3+6)条命的动物” | 开源

国产SOTA新模型精准get“画(3+6)条命的动物” | 开源

生成图像这件事,会推理的AI才是好AI。 举个例子,以往要是给AI一句这样的Prompt: (3+6)条命的动物。 我们人类肯定一眼就知道是猫咪,但AI的思考过程却是这样的:

来自主题: AI技术研报
7191 点击    2025-06-20 16:08
人人皆可创作音乐!腾讯AI Lab开源音乐生成大模型SongGeneration

人人皆可创作音乐!腾讯AI Lab开源音乐生成大模型SongGeneration

人人皆可创作音乐!腾讯AI Lab开源音乐生成大模型SongGeneration

6 月 16 日,腾讯 AI Lab 推出并开源 SongGeneration 音乐生成大模型,专注解决音乐 AIGC 中音质、音乐性与生成速度这三大共性难题

来自主题: AI技术研报
7224 点击    2025-06-20 15:50
推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本

推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本

推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本

人人都绕不开的推荐系统,如今正被注入新的 AI 动能。 随着 AI 领域掀起一场由大型语言模型(LLM)引领的生成式革命,它们凭借着强大的端到端学习能力、海量数据理解能力以及前所未有的内容生成潜力,开始重塑各领域的传统技术栈。

来自主题: AI技术研报
7658 点击    2025-06-20 11:08
DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

近年来,强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力,其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。

来自主题: AI技术研报
7232 点击    2025-06-20 10:53
AI哪怕答案正确,逻辑链却惨不忍睹,奥数级不等式证明成功率不到50%| 斯坦福&伯克利&MIT

AI哪怕答案正确,逻辑链却惨不忍睹,奥数级不等式证明成功率不到50%| 斯坦福&伯克利&MIT

AI哪怕答案正确,逻辑链却惨不忍睹,奥数级不等式证明成功率不到50%| 斯坦福&伯克利&MIT

大语言模型解决不等式证明问题时,可以给出正确答案,但大多数时候是靠猜。推理过程经不起推敲,逻辑完全崩溃。

来自主题: AI技术研报
5834 点击    2025-06-20 09:48
能自我提升的Agent需要内在的元认知学习能力。| 剑桥ICML最新

能自我提升的Agent需要内在的元认知学习能力。| 剑桥ICML最新

能自我提升的Agent需要内在的元认知学习能力。| 剑桥ICML最新

剑桥大学和范德夏尔实验室在 ICML 2024 上发表的立场论文,直接挑战了当前Agent开发的核心假设:我们一直在用错误的方式让Agent"自我改进"。

来自主题: AI技术研报
5660 点击    2025-06-20 09:39
ChatGPT上瘾,大脑萎缩47%!MIT祭出206页92图超长报告

ChatGPT上瘾,大脑萎缩47%!MIT祭出206页92图超长报告

ChatGPT上瘾,大脑萎缩47%!MIT祭出206页92图超长报告

AI上瘾堪比「吸毒」!MIT最新研究惊人发现:长期依赖大模型,学习能力下降、大脑受损,神经连接减少47%。AI提高效率的说法,或许根本就是误解!

来自主题: AI技术研报
6434 点击    2025-06-19 15:04
单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

普林斯顿大学和Meta联合推出的新框架LinGen,以MATE线性复杂度块取代传统自注意力,将视频生成从像素数的平方复杂度压到线性复杂度,使单张GPU就能在分钟级长度下生成高质量视频,大幅提高了模型的可扩展性和生成效率。

来自主题: AI技术研报
6468 点击    2025-06-19 12:07
斯坦福最新研究:硅谷的AI创业潮,其实是一场大型的资源错配

斯坦福最新研究:硅谷的AI创业潮,其实是一场大型的资源错配

斯坦福最新研究:硅谷的AI创业潮,其实是一场大型的资源错配

2025年1月到5月间,斯坦福大学的研究团队完成了一项本应在AI热潮开始时就进行的调查。他们采访了1500名美国员工和52名AI专家,评估了104个职业中的844项具体任务。

来自主题: AI技术研报
6747 点击    2025-06-19 11:40
字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题

字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题

字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题

为此,香港中文大学、字节跳动Seed和斯坦福大学研究团队出手,提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。

来自主题: AI技术研报
6049 点击    2025-06-19 11:31
港科广等发布首个医学世界模型!精准模拟肿瘤演化,规划治疗方案

港科广等发布首个医学世界模型!精准模拟肿瘤演化,规划治疗方案

港科广等发布首个医学世界模型!精准模拟肿瘤演化,规划治疗方案

医学世界模型(MeWM)是一种创新的AI系统,能够模拟疾病演变并预测不同治疗方案下的肿瘤变化。通过生成术后肿瘤图像,可以帮助医生在术前评估治疗效果,优化治疗方案,显著提升临床决策的准确性,为精准医疗提供了有力支持。

来自主题: AI技术研报
5788 点击    2025-06-19 11:18
20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

GRIT能让多模态大语言模型(MLLM)通过生成自然语言和图像框坐标结合的推理链进行「图像思维」,仅需20个训练样本即可实现优越性能!

来自主题: AI技术研报
7242 点击    2025-06-19 11:03
清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练

清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练

清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练

随着大型模型需要处理的序列长度不断增加,注意力运算(Attention)的时间开销逐渐成为主要开销。

来自主题: AI技术研报
7116 点击    2025-06-19 10:47
未来「含人量」多少,决定这工作值多少钱?斯坦福发布2025年重磅AI「工作内参」【附原版PDF】

未来「含人量」多少,决定这工作值多少钱?斯坦福发布2025年重磅AI「工作内参」【附原版PDF】

未来「含人量」多少,决定这工作值多少钱?斯坦福发布2025年重磅AI「工作内参」【附原版PDF】

你敢想象吗?你的工作“含人量”多少,决定你值多少钱?“含人量”是我首次创造的一个中文通俗词汇,用来转译论文核心概念“Human Agency Scale”,以后谁要引用,请注明出处是这里哈~

来自主题: AI技术研报
8077 点击    2025-06-19 10:31
10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!

10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!

10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!

扩散模型在视频合成任务中取得了显著成果,但其依赖迭代去噪过程,带来了巨大的计算开销。尽管一致性模型(Consistency Models)在加速扩散模型方面取得了重要进展,直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。

来自主题: AI技术研报
8582 点击    2025-06-19 10:13
√N并行+84倍计算加速!英伟达港大全新图像注意力:空间结构都保留

√N并行+84倍计算加速!英伟达港大全新图像注意力:空间结构都保留

√N并行+84倍计算加速!英伟达港大全新图像注意力:空间结构都保留

GSPN是一种新型视觉注意力机制,通过线性扫描和稳定性-上下文条件,高效处理图像空间结构,显著降低计算复杂度。通过线性扫描方法建立像素间的密集连接,并利用稳定性-上下文条件确保稳定的长距离上下文传播,将计算复杂度显著降低至√N量级。

来自主题: AI技术研报
6331 点击    2025-06-18 16:41
国产芯片比英伟达整体效率更高!?华为 CloudMatrix384 超节点首曝论文,跑 DeepSeek 效率超越英伟达

国产芯片比英伟达整体效率更高!?华为 CloudMatrix384 超节点首曝论文,跑 DeepSeek 效率超越英伟达

国产芯片比英伟达整体效率更高!?华为 CloudMatrix384 超节点首曝论文,跑 DeepSeek 效率超越英伟达

今年 4 月,围绕“华为芯片效率是否超越国际主流 AI 芯片和架构”的问题,网上曾引发一场激烈争论。

来自主题: AI技术研报
6642 点击    2025-06-18 16:38
告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025

告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025

告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025

还在靠“开盲盒”选择大模型? 来自弗吉尼亚理工大学的研究人员推出了个选型框架LensLLM

来自主题: AI技术研报
8216 点击    2025-06-18 15:39
统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

当 AI 放下海德格尔的锤子时,意味着机器人已经能够熟练使用工具,工具会“隐退”成为本体的延伸,而不再是需要刻意思考的对象。

来自主题: AI技术研报
8274 点击    2025-06-18 15:35