AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
单张照片实现三维重建,单视角室外复杂场景首次攻克| 西湖大学&港科大&Everlyn AI

单张照片实现三维重建,单视角室外复杂场景首次攻克| 西湖大学&港科大&Everlyn AI

单张照片实现三维重建,单视角室外复杂场景首次攻克| 西湖大学&港科大&Everlyn AI

单视角三维场景重建一直是计算机视觉领域中的核心挑战之一,尤其在捕捉高保真室外场景细节时,如何确保结构一致性和几何精度显得尤为困难。

来自主题: AI技术研报
9279 点击    2025-03-21 10:40
李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了

李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了

李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了

当我们看到一张猫咪照片时,大脑自然就能识别「这是一只猫」。但对计算机来说,它看到的是一个巨大的数字矩阵 —— 假设是一张 1000×1000 像素的彩色图片,实际上是一个包含 300 万个数字的数据集(1000×1000×3 个颜色通道)。每个数字代表一个像素点的颜色深浅,从 0 到 255。

来自主题: AI技术研报
9033 点击    2025-03-20 16:51
华为诺亚综述:生成式模型如何用于决策?

华为诺亚综述:生成式模型如何用于决策?

华为诺亚综述:生成式模型如何用于决策?

近年来,生成模型在内容生成(AIGC)领域蓬勃发展,同时也逐渐引起了在智能决策中的应用关注。

来自主题: AI技术研报
8851 点击    2025-03-20 16:38
一个算法让LLM创新能力暴增,原来是AI学会了进化

一个算法让LLM创新能力暴增,原来是AI学会了进化

一个算法让LLM创新能力暴增,原来是AI学会了进化

如果你让当今的 LLM 给你生成一个创意时钟设计,使用提示词「a creative time display」,它可能会给出这样的结果:

来自主题: AI技术研报
8892 点击    2025-03-20 16:15
生活机器人最后考验!杨笛一团队发布EgoNormia:现实中能否符合社会规范?

生活机器人最后考验!杨笛一团队发布EgoNormia:现实中能否符合社会规范?

生活机器人最后考验!杨笛一团队发布EgoNormia:现实中能否符合社会规范?

EgoNormia基准可以评估视觉语言模型在物理社会规范理解方面能力,从结果上看,当前最先进的模型在规范推理方面仍远不如人类,主要问题在于规范合理性和优先级判断上的不足。

来自主题: AI技术研报
7919 点击    2025-03-20 15:26
DeepSearch/DeepResearch中最优文本段选择和URL重排

DeepSearch/DeepResearch中最优文本段选择和URL重排

DeepSearch/DeepResearch中最优文本段选择和URL重排

如果你已经读过我们上一篇经典长文《DeepSearch/DeepResearch 的设计与实现》,那么不妨再深挖一些能大幅提升回答质量的细节。这次,我们将重点关注两个细节:

来自主题: AI技术研报
10855 点击    2025-03-20 09:57
啪啪打脸!Search-R1让DeepSeek-R1实时获取信息,实现26%提升的争议与启发 | 最新

啪啪打脸!Search-R1让DeepSeek-R1实时获取信息,实现26%提升的争议与启发 | 最新

啪啪打脸!Search-R1让DeepSeek-R1实时获取信息,实现26%提升的争议与启发 | 最新

本文介绍了Search-R1技术,这是一项通过强化学习训练大语言模型进行推理并利用搜索引擎的创新方法。实验表明,Search-R1在Qwen2.5-7B模型上实现了26%的性能提升,使模型能够实时获取准确信息并进行多轮推理。本文详细分析了Search-R1的工作原理、训练方法和实验结果,为AI产品开发者提供了重要参考。

来自主题: AI技术研报
11215 点击    2025-03-20 09:48
CVPR 2025|复旦&微软开源StableAnimator: 首个端到端ID一致性人类视频生成,Github Star破千

CVPR 2025|复旦&微软开源StableAnimator: 首个端到端ID一致性人类视频生成,Github Star破千

CVPR 2025|复旦&微软开源StableAnimator: 首个端到端ID一致性人类视频生成,Github Star破千

近年来,扩散模型在图像与视频合成领域展现出强大能力,为图像动画技术的发展带来了新的契机。特别是在人物图像动画方面,该技术能够基于一系列预设姿态驱动参考图像,使其动态化,从而生成高度可控的人体动画视频。

来自主题: AI技术研报
9403 点击    2025-03-20 09:34
原作者带队再次改造xLSTM,7B模型速度最快超Mamba 50%,权重代码全开源

原作者带队再次改造xLSTM,7B模型速度最快超Mamba 50%,权重代码全开源

原作者带队再次改造xLSTM,7B模型速度最快超Mamba 50%,权重代码全开源

近年来,大型语言模型(LLM)通过大量计算资源在推理阶段取得了解决复杂问题的突破。推理速度已成为 LLM 架构的关键属性,市场对高效快速的 LLM 需求不断增长。

来自主题: AI技术研报
6209 点击    2025-03-20 09:26
无需百卡集群!港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

无需百卡集群!港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

无需百卡集群!港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

文本到图像(Text-to-Image, T2I)生成任务近年来取得了飞速进展,其中以扩散模型(如 Stable Diffusion、DiT 等)和自回归(AR)模型为代表的方法取得了显著成果。然而,这些主流的生成模型通常依赖于超大规模的数据集和巨大的参数量,导致计算成本高昂、落地困难,难以高效地应用于实际生产环境。

来自主题: AI技术研报
7446 点击    2025-03-20 09:18
NAACL2025|中国移动九天团队提出大模型调色板:一种可控文本生成的解决方案

NAACL2025|中国移动九天团队提出大模型调色板:一种可控文本生成的解决方案

NAACL2025|中国移动九天团队提出大模型调色板:一种可控文本生成的解决方案

大模型在文本生成方面取得了卓越的成就,通过合适的prompt设计,往往可以使得生成结果符合特定的需求。但是为属性繁多的任务设计出合适的prompt是很困难的。一种解决方案是通过线性组合方式或者其变种将每个属性对应的模型在生成logits上进行融合。鉴于属性之间可能存在的冲突现象,这种方案无法保证模型的主属性不受其他模型的干扰。

来自主题: AI技术研报
9494 点击    2025-03-19 14:52
深度学习的平衡之道:港科大、港城大等团队联合发布多目标优化最新综述

深度学习的平衡之道:港科大、港城大等团队联合发布多目标优化最新综述

深度学习的平衡之道:港科大、港城大等团队联合发布多目标优化最新综述

近年来,深度学习技术在自动驾驶、计算机视觉、自然语言处理和强化学习等领域取得了突破性进展。然而,在现实场景中,传统单目标优化范式在应对多任务协同优化、资源约束以及安全性 - 公平性权衡等复杂需求时,逐渐暴露出其方法论的局限性。

来自主题: AI技术研报
6334 点击    2025-03-19 10:30
Django创造者Simon Willison分享:我如何使用LLM帮我写代码

Django创造者Simon Willison分享:我如何使用LLM帮我写代码

Django创造者Simon Willison分享:我如何使用LLM帮我写代码

近段时间,著名 AI 科学家 Andrej Karpathy 提出的氛围编程(vibe coding)是 AI 领域的一大热门话题。简单来说,氛围编程就是鼓励开发者忘掉代码,进入开发的氛围之中。更简单地讲,就是向 LLM 提出需求,然后「全部接受」即可。

来自主题: AI技术研报
9557 点击    2025-03-19 10:03
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

多模态大模型虽然在视觉理解方面表现出色,但在需要深度数学推理的任务上往往力不从心,尤其是对于参数量较小的模型来说更是如此。

来自主题: AI技术研报
5813 点击    2025-03-19 09:43
首次,6人7天真人秀!南洋理工等发布第一视角AI生活管家数据EgoLife

首次,6人7天真人秀!南洋理工等发布第一视角AI生活管家数据EgoLife

首次,6人7天真人秀!南洋理工等发布第一视角AI生活管家数据EgoLife

通过收集六名志愿者一周的多模态生活数据,研究人员构建了300小时的第一视角数据集EgoLife,旨在开发一款基于智能眼镜的AI生活助手。项目提出了EgoButler系统,包含EgoGPT和EgoRAG两个模块,分别用于视频理解与长时记忆问答,助力AI深入理解日常生活并提供个性化帮助。

来自主题: AI技术研报
8236 点击    2025-03-19 09:31
Dify v1.1.0 发布:用元数据给知识库"贴标签",RAG 检索效率翻倍

Dify v1.1.0 发布:用元数据给知识库"贴标签",RAG 检索效率翻倍

Dify v1.1.0 发布:用元数据给知识库"贴标签",RAG 检索效率翻倍

我是 Dify 产品团队的 Yawen。今天,我们很高兴地宣布发布 Dify v1.1.0,并推出了以“元数据”作为知识过滤器的新功能。通过利用自定义的元数据属性,元数据过滤能够提升知识库中相关数据的检索效率和准确度。过去,用户只能在庞大的数据集中进行搜索,无法根据特定需求进行筛选或控制访问,难以快速锁定最相关的信息。、

来自主题: AI技术研报
9734 点击    2025-03-18 21:13
全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开

全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开

全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开

全球首个开源多模态推理大模型来了!38B参数模型性能直逼DeepSeek-R1,同尺寸上横扫多项SOTA。而这家中国公司之所以选择无偿将技术思路开源,正是希望同DeepSeek一样,打造开源界的技术影响力。

来自主题: AI技术研报
10889 点击    2025-03-18 19:19
太疯狂了,仅100行56KB的LLM框架,用Cursor复刻一个一模一样的cursor | 已开源

太疯狂了,仅100行56KB的LLM框架,用Cursor复刻一个一模一样的cursor | 已开源

太疯狂了,仅100行56KB的LLM框架,用Cursor复刻一个一模一样的cursor | 已开源

现在各种框架满天飞,你是否想过这个问题,一个真正优秀的框架究竟需要多少代码?研究者Zach给出了一个令人惊讶的答案:仅需100行。这个名为PocketFlow的框架不仅体积小到令人难以置信(仅56KB),还能用来构建一个完整的Cursor编码助手。这个发现不仅挑战了我们对框架复杂性的认知,更揭示了一个重要的设计哲学:真正的创新往往来自于化繁为简。

来自主题: AI技术研报
8985 点击    2025-03-18 18:55
先别骂队友,上交如何让DeepSeek R1在分手厨房再也不糊锅?

先别骂队友,上交如何让DeepSeek R1在分手厨房再也不糊锅?

先别骂队友,上交如何让DeepSeek R1在分手厨房再也不糊锅?

在春节的 DeepSeek 大热后,大模型也更多走进了大家的生活。我们越来越多看到各种模型在静态的做题榜单击败人类,解决各种复杂推理问题。但这些静态的测试与模型在现实中的应用还相去甚远。模型除了能进行对话,还在许多更复杂的场景中以各种各样的方式与人类产生互动。除了对话任务外,如何实现大模型与人的实时同步交互协作越来越重要。

来自主题: AI技术研报
4417 点击    2025-03-18 17:30
模态GAP不存在了?图文领域首个token级大一统基座诞生

模态GAP不存在了?图文领域首个token级大一统基座诞生

模态GAP不存在了?图文领域首个token级大一统基座诞生

CLIP、DINO、SAM 基座的重磅问世,推动了各个领域的任务大一统,也促进了多模态大模型的蓬勃发展。

来自主题: AI技术研报
9399 点击    2025-03-18 17:20