AI技术研报-这里有最前沿的人工智能技术解读

【Claude Prompt】认知边界拓宽器：都说认知改命，认知是什么？

名称：认知边界拓宽器 Cognition Boundary Expander

来自主题: AI技术研报

7621 点击 2025-01-20 11:19

选LLM-Judge评估，用这个可证明的人类对齐评估框架， ICLR2025匿名论文

在当今AI技术迅猛发展的背景下，大语言模型（LLM）的评估问题已成为一个不可忽视的挑战。传统的做法是直接采用最强大的模型（如GPT-4）进行评估，这就像让最高法院的大法官直接处理所有交通违章案件一样，既不经济也不一定总能保证公正。

来自主题: AI技术研报

6586 点击 2025-01-20 10:50

AI编程蓝皮书：0基础4小时学会开发

大家好，我是AI产品黄叔，目前给两家大厂做AI产品顾问，在使用Cursor和Windsurf（这两个都是AI编程的软件）开发产品后，意识到这才是创造者的天堂，最近举办了三场线下AI编程培训，根据学员的反馈有了这份手册，我会在本手册里持续更新，不断把更多的技巧，思考分享出来，希望能够帮助想要创造的你走进这个天堂！如果你觉得有帮助，欢迎把文末的图片分享给你的朋友：

来自主题: AI技术研报

13785 点击 2025-01-20 09:14

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

近年来，视觉大模型（Large Vision Language Models, LVLMs）领域经历了迅猛的发展，这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而，随着 LVLMs 复杂性和能力的增长，「幻觉现象」的挑战也日益凸显。

来自主题: AI技术研报

7171 点击 2025-01-19 14:51

宇树机器人上演弯道超车(ren)，歪果仁质疑是特效

什么，歪果仁怀疑咱中国的宇树机器人昨天释放的最新视频，是特效？

来自主题: AI技术研报

10338 点击 2025-01-18 15:57

Search版o1：推理过程会主动查资料，整体性能优于人类专家，清华人大出品

一个新框架，让Qwen版o1成绩暴涨：在博士级别的科学问答、数学、代码能力的11项评测中，能力显著提升，拿下10个第一！这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。

来自主题: AI技术研报

7424 点击 2025-01-18 15:00

扩散模型也能推理时Scaling，谢赛宁团队重磅研究可能带来文生图新范式

对于 LLM，推理时 scaling 是有效的！这一点已经被近期的许多推理大模型证明：o1、o3、DeepSeek R1、QwQ、Step Reasoner mini……

来自主题: AI技术研报

8826 点击 2025-01-18 14:39

谢赛宁新作爆火，扩散模型新赛道诞生！测试时计算带飞，性能飙到天花板

划时代的突破来了！来自NYU、MIT和谷歌的顶尖研究团队联手，为扩散模型开辟了一个全新的方向——测试时计算Scaling Law。其中，谢赛宁高徒为共同一作。

来自主题: AI技术研报

8885 点击 2025-01-18 14:29

扩散模型低位量化突破！有效扩散量化的极限推向2-4位，W2A4位宽下FID降低58%，超越SOTA方法

降低扩散模型生成的计算成本，性能还保持在高水平！最新研究提出一种用于极低位差分量化的混合精度量化方法。

来自主题: AI技术研报

6712 点击 2025-01-18 14:18

视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂｜淘天MMLab南大重大出品

模型安全和可靠性、系统整合和互操作性、用户交互和认证…… 当“多模态”“跨模态”成为不可阻挡的AI趋势时，多模态场景下的安全挑战尤其应当引发产学研各界的注意。

来自主题: AI技术研报

9045 点击 2025-01-18 10:48

50%优势，力压OpenAI和DeepMind！清华DSAC系列算法全面解析

清华大学团队在强化学习领域取得重大突破

来自主题: AI技术研报

8097 点击 2025-01-18 10:10

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

随着当前大语言模型的广泛应用和推理时扩展的新范式的崛起，如何实现高效的大规模推理成为了一个巨大挑战。特别是在语言模型的推理阶段，传统注意力机制中的键值缓存（KV Cache）会随着批处理大小和序列长度线性增长，俨然成为制约大语言模型规模化应用和推理时扩展的「内存杀手」。

来自主题: AI技术研报

7689 点击 2025-01-18 09:57

生成越长越跑偏？浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

本文介绍了一篇由浙江大学章国锋教授和商汤科技研究团队联合撰写的论文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。

来自主题: AI技术研报

8841 点击 2025-01-17 11:14

大模型量化训练极限在哪？腾讯混元提出低比特浮点数训练Scaling Laws

大模型低精度训练和推理是大模型领域中的重要研究方向，旨在通过降低模型精度来减少计算和存储成本，同时保持模型的性能。因为在大模型研发成本降低上的巨大价值而受到行业广泛关注。

来自主题: AI技术研报

5383 点击 2025-01-17 11:07

495篇参考文献！北交大清华等高校发布多语言大模型综述

虽然大模型取得突破性进展，但其在多语言场景下仍具有局限性，存在很大的改善空间。

来自主题: AI技术研报

6427 点击 2025-01-17 10:58

微软最新复杂推理：基于过程奖励的LE-MCTS集成新方法

在人工智能快速发展的今天，大型语言模型（LLM）在各类任务中展现出惊人的能力。然而，当面对需要复杂推理的任务时，即使是最先进的开源模型也往往难以保持稳定的表现。现有的模型集成方法，无论是在词元层面还是输出层面的集成，都未能有效解决这一挑战。

来自主题: AI技术研报

5940 点击 2025-01-17 10:36

Keras之父创业押注「程序合成」，副业竟能解锁终极AGI！o3预示新拐点

Keras之父官宣创业了！全新成立的实验室Ndea，押注了一条通往AGI的新路线——深度学习+程序合成。值得一提的是，这条新路，曾是Keras之父在谷歌搞的业余项目。

来自主题: AI技术研报

7869 点击 2025-01-16 16:08

LoRA最新最权威的一切都在这了，2025综述

在人工智能快速发展的今天，大型基础模型（如GPT、BERT等）已经成为AI应用的核心基石。然而，这些动辄数十亿甚至数万亿参数的模型给开发者带来了巨大的计算资源压力。传统的全参数微调方法不仅需要大量的计算资源，还面临着训练不稳定、容易过拟合等问题。

来自主题: AI技术研报

8600 点击 2025-01-16 10:48

打脸！GPT-4o输出长度8k都勉强，陈丹琦团队新基准测试：所有模型输出都低于标称长度

很多大模型的官方参数都声称自己可以输出长达32K tokens的内容，但这数字实际上是存在水分的？？

来自主题: AI技术研报

10835 点击 2025-01-16 10:30

Transformer作者初创重磅发布Transformer²！AI模型活了，动态调整自己权重

Sakana AI发布了Transformer²新方法，通过奇异值微调和权重自适应策略，提高了LLM的泛化和自适应能力。新方法在文本任务上优于LoRA；即便是从未见过的任务，比如MATH、HumanEval和ARC-Challenge等，性能也都取得了提升。

来自主题: AI技术研报

10114 点击 2025-01-16 10:23

单图秒变3D对象，还可交互实时编辑！Stability AI中科大校友新作

Stability AI推出3D重建方法：2D图像秒变3D，还可以交互式实时编辑。新方法的原理、代码、权重、数据全公开，而且许可证宽松，可以商用。新方法采用点扩展模型生成稀疏点云，之后通过Transformer主干网络，同时处理生成的点云数据和输入图像生成网格。以后，人人都能轻松上手3D模型设计。

来自主题: AI技术研报

11573 点击 2025-01-16 10:13

一句话让Agent自主干活，清华复旦斯坦福等开源的智能体开发框架抢先了OpenAI

近期，OpenAI CEO Sam Altman 宣布，2025 年将推出名为 “Operator” 的虚拟员工计划，AI 代理将能够自主执行任务，如写代码、预订旅行等，成为企业中的 “数字同事”。

来自主题: AI技术研报

8097 点击 2025-01-16 10:12

近8年后，谷歌Transformer继任者「Titans」来了，上下文记忆瓶颈被打破

正如论文一作所说，「新架构 Titans 既比 Transformer 和现代线性 RNN 更有效，也比 GPT-4 等超大型模型性能更强。」

来自主题: AI技术研报

7900 点击 2025-01-16 09:54

Transformer²要做「活」的AI模型，动态调整权重，像章鱼一样适应环境

自适应 LLM 反映了神经科学和计算生物学中一个公认的原理，即大脑根据当前任务激活特定区域，并动态重组其功能网络以响应不断变化的任务需求。

来自主题: AI技术研报

5692 点击 2025-01-15 18:30

MiniMax开源4M超长上下文新模型！性能比肩DeepSeek-v3、GPT-4o

开源模型上下文窗口卷到超长，达400万token！刚刚，“大模型六小强”之一MiniMax开源最新模型—— MiniMax-01系列，包含两个模型：基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。

来自主题: AI技术研报

8387 点击 2025-01-15 15:10

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

随着语言大模型的成功，视觉 - 语言多模态大模型 (Vision-Language Multimodal Models, 简写为 VLMs) 发展迅速，但在长上下文场景下表现却不尽如人意，这一问题严重制约了多模态模型在实际应用中的潜力。

来自主题: AI技术研报

8405 点击 2025-01-15 14:23

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

「2025 年，我们可能会看到第一批 AI Agent 加入劳动力大军，并对公司的生产力产生实质性的影响。」——OpenAI CEO Sam Altman

来自主题: AI技术研报

8810 点击 2025-01-15 14:06

同时优化几种语气的prompt怎么办？MOPO：实现多领域情感文本生成的提示优化（附提示词）

在人工智能快速发展的今天，提示工程（Prompt Engineering）已经成为AI应用开发中不可或缺的环节。然而，当我们需要生成适应不同场景的情感文本时，传统的单一目标提示优化方法往往显得力不从心。

来自主题: AI技术研报

8808 点击 2025-01-15 09:47

余弦相似度可能没用？对于某些线性模型，相似度甚至不唯一

在机器学习和数据科学领域，余弦相似度长期以来一直是衡量高维对象之间语义相似度的首选指标。余弦相似度已广泛应用于从推荐系统到自然语言处理的各种应用中。它的流行源于人们相信它捕获了嵌入向量之间的方向对齐，提供了比简单点积更有意义的相似性度量。

来自主题: AI技术研报

8451 点击 2025-01-14 14:47

思维链？思维树？华为诺亚：现在到了思维森林时刻！

OpenAI 接连发布 o1 和 o3 模型，大模型的高阶推理能力正在迎来爆发式增强。在预训练 Scaling law “撞墙” 的背景下，探寻新的 Scaling law 成为业界关注的热点。高阶推理能力有望开启新的 Scaling law，为大模型的发展注入新的活力。

来自主题: AI技术研报

7882 点击 2025-01-14 14:43