AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
关于LLM-as-a-judge范式,终于有综述讲明白了

关于LLM-as-a-judge范式,终于有综述讲明白了

关于LLM-as-a-judge范式,终于有综述讲明白了

评估和评价长期以来一直是人工智能 (AI) 和自然语言处理 (NLP) 中的关键挑战。然而,传统方法,无论是基于匹配还是基于词嵌入,往往无法判断精妙的属性并提供令人满意的结果。

来自主题: AI技术研报
8267 点击    2024-12-03 20:21
15分钟做完一个小程序,腾讯的AI工具有点东西

15分钟做完一个小程序,腾讯的AI工具有点东西

15分钟做完一个小程序,腾讯的AI工具有点东西

我记得很久之前,我们都在讲什么低代码/无代码平台,这个概念很久了,但是,一直没有很好的落地,整体的效果也不算好。

来自主题: AI技术研报
10036 点击    2024-12-03 16:47
全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐

全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐

全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐

斯坦福大学推出的IKEA Video Manuals数据集,通过4D对齐组装视频和说明书,为AI理解和执行复杂空间任务提供了新的挑战和研究基准,让机器人或AR眼镜指导家具组装不再是梦。

来自主题: AI技术研报
8180 点击    2024-12-03 16:37
MIT 76页深度报告:AI加速创新马太效应,科学家产出分化加剧!缺乏判断力将被淘汰

MIT 76页深度报告:AI加速创新马太效应,科学家产出分化加剧!缺乏判断力将被淘汰

MIT 76页深度报告:AI加速创新马太效应,科学家产出分化加剧!缺乏判断力将被淘汰

MIT的76页深度报告!AI辅助创新显著增长——这毋庸置疑。但,值得注意的是,AI加剧了不同水平科学家产出的差异,这与科学家的判断力强相关,意味着缺乏判断力的科学家在未来可能会被慢慢淘汰……

来自主题: AI技术研报
6266 点击    2024-12-03 16:25
李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

如何让机器人拥有人一样的协调行动能力是具身智能不可避免的挑战,而李飞飞团队在CoRL-LEAP研讨会获得最佳论文奖的ReKep对于这一挑战交出了一张亮眼的答卷。

来自主题: AI技术研报
7950 点击    2024-12-03 15:27
讲清楚了!一文讲透扩散模型

讲清楚了!一文讲透扩散模型

讲清楚了!一文讲透扩散模型

昨天,为大家介绍了生成式对抗网络GAN,今天再来为大家介绍另一个有趣的模型:扩散模型,包括Stability AI、OpenAI、Google Brain在内的多个研究团队基于扩散模型提出了多种创新模型,如以文生图、图像生成视频生成等~

来自主题: AI技术研报
9635 点击    2024-12-03 14:53
翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看

翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看

翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看

之前领导OpenAI安全团队的北大校友翁荔(Lilian Weng),离职后第一个动作来了。当然是发~博~客。这次的博客一如既往万字干货,妥妥一篇研究综述,翁荔本人直言写起来不容易。主题围绕强化学习中奖励黑客(Reward Hacking)问题展开,即Agent利用奖励函数或环境中的漏洞来获取高奖励,而并未真正学习到预期行为。

来自主题: AI技术研报
8712 点击    2024-12-03 00:16
清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%

清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%

清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%

最近,一支来自UCSD和清华的研究团队提出了一种全新的微调方法。经过这种微调后,一个仅80亿参数的小模型,在科学问题上也能和GPT-4o一较高下!或许,单纯地卷AI计算能力并不是唯一的出路。

来自主题: AI技术研报
9342 点击    2024-12-02 15:53
让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命|NeurIPS 2024

让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命|NeurIPS 2024

让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命|NeurIPS 2024

研究人员提出了一种方法,能够在领域数据分布持续变化的动态环境中,基于随机时刻观测的数据分布,在任意时刻生成适用的神经网络,实现前所未有的泛化能力。

来自主题: AI技术研报
8575 点击    2024-12-02 15:25
AI做数学学会「动脑子」! UCL等发现LLM「程序性知识」,推理绝不是背答案

AI做数学学会「动脑子」! UCL等发现LLM「程序性知识」,推理绝不是背答案

AI做数学学会「动脑子」! UCL等发现LLM「程序性知识」,推理绝不是背答案

LLM在推理时,竟是通过一种「程序性知识」,而非照搬答案?可以认为这是一种变相的证明:LLM的确具备某种推理能力。然而存在争议的是,这项研究只能提供证据,而非证明。

来自主题: AI技术研报
8827 点击    2024-12-02 15:15
微软:两个AI相互纠错,数学再涨5分

微软:两个AI相互纠错,数学再涨5分

微软:两个AI相互纠错,数学再涨5分

提升LLM数学能力的新方法来了——

来自主题: AI技术研报
6206 点击    2024-12-02 14:51
NeurIPS 2024|杜克大学&谷歌提出SLED解码框架,无需外部数据与额外训练,有效缓解大语言模型幻觉,提高事实准确性

NeurIPS 2024|杜克大学&谷歌提出SLED解码框架,无需外部数据与额外训练,有效缓解大语言模型幻觉,提高事实准确性

NeurIPS 2024|杜克大学&谷歌提出SLED解码框架,无需外部数据与额外训练,有效缓解大语言模型幻觉,提高事实准确性

大语言模型(LLM)在各种任务上展示了卓越的性能。然而,受到幻觉(hallucination)的影响,LLM 生成的内容有时会出现错误或与事实不符,这限制了其在实际应用中的可靠性。

来自主题: AI技术研报
9757 点击    2024-12-02 14:27
谷歌推出医疗AI的安卓系统-基础模型未来已来!

谷歌推出医疗AI的安卓系统-基础模型未来已来!

谷歌推出医疗AI的安卓系统-基础模型未来已来!

Google研究院健康AI团队于近日推出了全新的开源模型套件——Health AI Developer Foundations(HAI-DEF)。在本次HAI-DEF的首次发布中,Google推出了三个专注于医疗影像应用的重要模型。首先是CXR Foundation胸部X光模型,其次是Derm Foundation皮肤影像模型,第三个是Path Foundation病理学模型,它基于ViT-S架构

来自主题: AI技术研报
8501 点击    2024-12-02 10:52
假如你只有一天时间开发一个 App,前后端都要写,你能办到吗?

假如你只有一天时间开发一个 App,前后端都要写,你能办到吗?

假如你只有一天时间开发一个 App,前后端都要写,你能办到吗?

一天开发一个 App,听起来像是个天方夜谭吧?说实话,几年前我也觉得不可能,但在今天,借助强大的 AI 工具和合理的工作流,这事儿真的变得触手可及。当然,这并不意味着可以随便敷衍,而是需要一套高效的方法论。今天,我就来分享一下我们团队在一天内开发一个 App 的完整流程。

来自主题: AI技术研报
4872 点击    2024-12-02 09:22
微软发明全新「LLM语言」,AI智能体交互效率翻倍!

微软发明全新「LLM语言」,AI智能体交互效率翻倍!

微软发明全新「LLM语言」,AI智能体交互效率翻倍!

对于LLM来说,人类语言可能不是最好的交流媒介,正如《星战》中的机器人有自己的一套语言,近日,来自微软的研究人员改进了智能体间的交互方式,使模型的通信速度翻倍且不损失精度。

来自主题: AI技术研报
6505 点击    2024-12-01 15:30
ICLR 惊现[10,10,10,10]满分论文,ControlNet 作者新作,Github 5.8k 颗星

ICLR 惊现[10,10,10,10]满分论文,ControlNet 作者新作,Github 5.8k 颗星

ICLR 惊现[10,10,10,10]满分论文,ControlNet 作者新作,Github 5.8k 颗星

四个 10 分!罕见的一幕出现了。 您正在收看的,不是中国梦之队的跳水比赛,而是 ICLR 2025 的评审现场。 虽说满分论文不是前无古人,后无来者,但放在平均分才 4.76 的 ICLR,怎么不算是相当炸裂的存在呢。

来自主题: AI技术研报
8571 点击    2024-12-01 14:39
轻量化MobileMamba视觉模型来了|浙大/腾讯优图/华中科大联合出品

轻量化MobileMamba视觉模型来了|浙大/腾讯优图/华中科大联合出品

轻量化MobileMamba视觉模型来了|浙大/腾讯优图/华中科大联合出品

浙大、腾讯优图、华中科技大学的团队,提出轻量化MobileMamba! 既良好地平衡了效率与效果,推理速度远超现有基于Mamba的模型。

来自主题: AI技术研报
8840 点击    2024-12-01 14:27
关于计算机视觉中的自回归模型,这篇综述一网打尽了

关于计算机视觉中的自回归模型,这篇综述一网打尽了

关于计算机视觉中的自回归模型,这篇综述一网打尽了

随着计算机视觉领域的不断发展,自回归模型作为一种强大的生成模型,在图像生成、视频生成、3D 生成和多模态生成等任务中展现出了巨大的潜力。然而,由于该领域的快速发展,及时、全面地了解自回归模型的研究现状和进展变得至关重要。本文旨在对视觉领域中的自回归模型进行全面综述,为研究人员提供一个清晰的参考框架。

来自主题: AI技术研报
8291 点击    2024-12-01 14:21
无需Transformer,简单滤波器即可提高时间序列预测精度 | NeurIPS 2024

无需Transformer,简单滤波器即可提高时间序列预测精度 | NeurIPS 2024

无需Transformer,简单滤波器即可提高时间序列预测精度 | NeurIPS 2024

无需Transformer,简单滤波器即可提高时间序列预测精度。 由国家信息中心、牛津大学、北京理工大学、同济大学、中国科学技术大学等机构的团队提出了一个FilterNet。 目前已被NeurlPS 2024接收。

来自主题: AI技术研报
7184 点击    2024-12-01 14:12
AI 教育赛道万字解析:代表性产品有哪些?机会在哪里?未来可能性?

AI 教育赛道万字解析:代表性产品有哪些?机会在哪里?未来可能性?

AI 教育赛道万字解析:代表性产品有哪些?机会在哪里?未来可能性?

教育一直被认为是会被LLM改变最大的行业之一。ChatGPT 的使用场景中,教育占据了很大比重,其用量常随开学和假期规律波动。而 Andrej Karpathy 也选择了教育作为他的创业方向。人们都期待能够有全能的AI Tutor,因材施教,提供给每个人最好、最个性化的教育。

来自主题: AI技术研报
7487 点击    2024-12-01 12:05
深度丨AI Agents 技术栈图谱与分析

深度丨AI Agents 技术栈图谱与分析

深度丨AI Agents 技术栈图谱与分析

Letta(由之前爆火的 MemGPT 更名)最近做了一个关于 AI Agents Stack 的研究报告。

来自主题: AI技术研报
9891 点击    2024-12-01 11:29
如何使用OpenAI fine-tuning(微调)训练属于自己的专有模型?

如何使用OpenAI fine-tuning(微调)训练属于自己的专有模型?

如何使用OpenAI fine-tuning(微调)训练属于自己的专有模型?

Fine-tuning理论上很复杂,但是OpenAI把这个功能完善到任何一个人看了就能做出来的程度。我们先从原理入手,你看这张图,左边是Pre-trained LLM (预训练大模型模型),也就是像ChatGPT这样的模型;右边是Fine-tuned LLM (微调过的语言大模型),中间就是进行微调的过程,它需要我们提供一些「ChatGPT提供不了但是我们需要的东西」。

来自主题: AI技术研报
10177 点击    2024-12-01 10:56
在大模型应用中,如何提升RAG(检索增强生成)的能力?

在大模型应用中,如何提升RAG(检索增强生成)的能力?

在大模型应用中,如何提升RAG(检索增强生成)的能力?

曾经参与过公司内部的RAG应用,写过一篇关于RAG的技术详情以及有哪些好用的技巧,这次专注于总结一下RAG的提升方法。

来自主题: AI技术研报
7887 点击    2024-12-01 10:43
GPT-5涌现能力可预测?UC伯克利仅使用当前模型检查点预测未来模型

GPT-5涌现能力可预测?UC伯克利仅使用当前模型检查点预测未来模型

GPT-5涌现能力可预测?UC伯克利仅使用当前模型检查点预测未来模型

LLM 规模扩展的一个根本性挑战是缺乏对涌现能力的理解。特别是,语言模型预训练损失是高度可预测的。然而,下游能力的可预测性要差得多,有时甚至会出现涌现跳跃(emergent jump),这使得预测未来模型的能力变得具有挑战性。

来自主题: AI技术研报
9093 点击    2024-11-30 16:51
多模态慢思考:分解原子步骤以解决复杂数学推理

多模态慢思考:分解原子步骤以解决复杂数学推理

多模态慢思考:分解原子步骤以解决复杂数学推理

AtomThink 是一个包括 CoT 注释引擎、原子步骤指令微调、政策搜索推理的全流程框架,旨在通过将 “慢思考 “能力融入多模态大语言模型来解决高阶数学推理问题。量化结果显示其在两个基准数学测试中取得了大幅的性能增长,并能够轻易迁移至不同的多模态大模型当中。

来自主题: AI技术研报
6800 点击    2024-11-30 16:45
陶哲轩:通义千问QwQ奥数真厉害,开源大模型顶流

陶哲轩:通义千问QwQ奥数真厉害,开源大模型顶流

陶哲轩:通义千问QwQ奥数真厉害,开源大模型顶流

QwQ 具有神奇的推理能力。 一个刚发布两天的开源模型,正在 AI 数学奥林匹克竞赛 AIMO 上创造新纪录。

来自主题: AI技术研报
8146 点击    2024-11-30 16:34
清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

计算、存储消耗高,机器人使用多模态模型的障碍被解决了! 来自清华大学的研究者们设计了DeeR-VLA框架,一种适用于VLA的“动态推理”框架,能将LLM部分的相关计算、内存开销平均降低4-6倍。

来自主题: AI技术研报
7466 点击    2024-11-30 16:29