AI资讯新闻榜单内容搜索-大模

Code LLM全景综述，从LLM到Agent，全文长303页，北航阿里字节等12家机构联合撰写｜最新

这篇论文由北京航空航天大学、阿里巴巴、字节跳动、上海人工智能实验室等几十家顶尖机构联合撰写，全文长达303页，是对当前“代码大模型（Code LLMs）”领域最详尽的百科全书式指南。

来自主题: AI技术研报

11696 点击 2025-12-05 09:24

首个英文原生「弱智吧」！逻辑谬误数据集与生成框架来了 | AAAI'26

最近研究发现，大模型在判断逻辑谬误时容易「想太多」，误报正常句子，但在确定有谬误后，其分类能力较强。研究人员构建了首个高质量英文逻辑谬误基准SMARTYPAT-BENCH，并开发了基于Prolog的逻辑谬误自动生成框架SMARTYPAT，为大模型逻辑能力评估提供新思路，可用于谬误识别、辩论教育等领域。

来自主题: AI技术研报

9686 点击 2025-12-05 09:19

从MiniMax到DeepSeek：为何头部大模型都在押注「交错思维」？

昨日，有位推特博主晒出了国内几大开源模型在轻量级软件工程 Agent 基准测试 mini-SWE-agent 上的成绩。该基准主要测试大模型在真实软件开发任务中的多步推理、环境交互和工程化能力。

来自主题: AI技术研报

9725 点击 2025-12-04 16:25

句子级溯源+生成式归因，C²-Cite重塑大模型可信度

在人工智能快速发展的今天,大语言模型已经深入到我们工作和生活的方方面面。然而,如何让AI生成的内容更加可信、可追溯, 一直是学术界和工业界关注的焦点问题。想象一下,当你向ChatGPT提问时,它不仅给出答案,还能像学术论文一样标注每句话的信息来源——这就是"溯源大语言模型"要解决的核心问题。

来自主题: AI技术研报

6318 点击 2025-12-03 10:44

速递｜全球首个船舶具身大模型，「知有无界」获得卓源亚洲种子轮融资

近日，清华大学深圳国际研究生院的机器人博士团队创办的「知有无界」获得卓源亚洲领投、力合科创跟投的种子轮融资。「知有无界」诞生在清华大学王学谦教授的智能机器人实验室，实现了全球首个船舶具身通用大模型，本轮融资后，「知有无界」将会进一步加快在船坞的商业化落地，并持续进行多代产品的研发。

来自主题: AI资讯

7800 点击 2025-12-03 10:25

迎接「万物皆可RAG」时代：最新综述展示50多种多模态组合的巨大待探索空间

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成（RAG）来产生用户问题的答案。随着多模态大模型（MLLMs）的崛起，大模型的主流技术之一 RAG 迅速向多模态发展，形成多模态检索增强生成（MM-RAG）这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

来自主题: AI技术研报

7021 点击 2025-12-03 09:54