AI资讯新闻榜单内容搜索-人工智

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 人工智
仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

加州大学河滨分校团队发现,AI组合推理表现不佳部分源于评测指标过于苛刻。他们提出新指标GroupMatch和Test-Time Matching算法,挖掘模型潜力,使GPT-4.1在Winoground测试中首次超越人类,0.2B参数的SigLIP-B16在MMVP-VLM基准测试上超越GPT-4.1并刷新最优结果。这表明模型的组合推理能力早已存在,只需合适方法在测试阶段解锁。

来自主题: AI技术研报
6630 点击    2025-11-09 15:33
AI快速生成全新抗体设计图,可精确打击病毒要害,大卫·贝克最新研究或改变传染病应对模式

AI快速生成全新抗体设计图,可精确打击病毒要害,大卫·贝克最新研究或改变传染病应对模式

AI快速生成全新抗体设计图,可精确打击病毒要害,大卫·贝克最新研究或改变传染病应对模式

近日,诺贝尔奖得主、美国华盛顿大学教授大卫·贝克(David Baker)和团队再次将 AI 成果送上 Nature,他们开发出一种基于 AI 的蛋白质结构生成模型 RFdiffusion,能在指定病毒表面特定表位的情况下,辅助人类从头设计出能够与之结合的抗体结构。

来自主题: AI资讯
8016 点击    2025-11-09 11:01
突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化

突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化

突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化

近日,谷歌推出了一种全新的用于持续学习的机器学习范式 —— 嵌套学习,模型不再采用静态的训练周期,而是以不同的更新速度在嵌套层中进行学习,即将模型视为一系列嵌套问题的堆叠,使其能够不断学习新技能,同时又不会遗忘旧技能。

来自主题: AI技术研报
8096 点击    2025-11-09 10:25
微信、清华连续自回归模型CALM,新范式实现从「离散词元」到「连续向量」转变

微信、清华连续自回归模型CALM,新范式实现从「离散词元」到「连续向量」转变

微信、清华连续自回归模型CALM,新范式实现从「离散词元」到「连续向量」转变

众所周知,大型语言模型(LLM)的根本运作方式是预测下一个 token(词元),能够保证生成的连贯性和逻辑性,但这既是 LLM 强大能力的「灵魂」所在,也是其枷锁,将导致高昂的计算成本和响应延迟。 可

来自主题: AI技术研报
6928 点击    2025-11-09 10:21
第一波 2025 年度词汇出炉,一半毫无悬念,一半完全懵

第一波 2025 年度词汇出炉,一半毫无悬念,一半完全懵

第一波 2025 年度词汇出炉,一半毫无悬念,一半完全懵

近几年,各大词典评选的年度词汇中,AI 相关的新词异军突起。最新出炉的 2025 年柯林斯词典年度词汇,花落「vibe coding」——也不意外,它几乎是今年最热门的 AI 技术。 如果再往回拨一点

来自主题: AI资讯
6500 点击    2025-11-08 15:53
LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律

LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律

LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律

这说明o1不仅能够使用语言,还能够思考语言,具备元语言能力(metalinguistic capacity )。由于语言模型只是在预测句子中的下一个单词,人对语言的深层理解在质上有所不同。因此,一些语言学家表示,大模型实际上并没有在处理语言。

来自主题: AI技术研报
7701 点击    2025-11-08 15:51
SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能

SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能

SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能

研究团队提出一种简洁且高效的算法 ——SimKO (Simple Pass@K Optimization),显著优化了 pass@K(K=1 及 K>1)性能。同时,团队认为当前的用熵(Entropy)作为指标衡量多样性存在局限:熵无法具体反映概率分布的形态。如图 2(c)所示,两个具有相同熵值的分布,一个可能包含多个峰值,而另一个则可能高度集中于一个峰值。

来自主题: AI技术研报
6408 点击    2025-11-08 15:48
AI六巨头首次同台!纵论四十年AI风云、泡沫之辩与AGI时间表

AI六巨头首次同台!纵论四十年AI风云、泡沫之辩与AGI时间表

AI六巨头首次同台!纵论四十年AI风云、泡沫之辩与AGI时间表

这是一个人类 AI 群星闪耀时的时刻——黄仁勋、李飞飞、杰弗里·辛顿(Geoffrey Hinton)、约书亚·本吉奥(Yoshua Bengio)、杨立昆(Yann LeCun)、比尔·戴利(Bill Dally),罕见同台参与同一个圆桌讨论 AI。之所以能聚在一起,是因为他们六人获得了 2025 年伊丽莎白女王工程奖。

来自主题: AI资讯
8442 点击    2025-11-08 11:26
视频模型假装在推理?MME-CoF新基准评估12个推理维度

视频模型假装在推理?MME-CoF新基准评估12个推理维度

视频模型假装在推理?MME-CoF新基准评估12个推理维度

视频生成模型如Veo-3能生成逼真视频,但有研究发现其推理能力存疑。香港中文大学、北京大学、东北大学的研究者们设计了12项测试,发现模型只能模仿表面模式,未真正理解因果。这项研究为视频模型推理能力评估提供基准,指明未来研究方向。

来自主题: AI技术研报
6595 点击    2025-11-08 11:16
vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

本文来自于香港中文大学 MMLab 和 vivo AI Lab,其中论文第一作者肖涵,主要研究方向为多模态大模型和智能体学习,合作作者王国志,研究方向为多模态大模型和 Agent 强化学习。项目 le

来自主题: AI技术研报
6463 点击    2025-11-08 11:00