AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大模型也冲“奥斯卡”:港科大腾讯等提出AI角色扮演全景综述,四方面剖析关键细节

大模型也冲“奥斯卡”:港科大腾讯等提出AI角色扮演全景综述,四方面剖析关键细节

大模型也冲“奥斯卡”:港科大腾讯等提出AI角色扮演全景综述,四方面剖析关键细节

AI界也有了自己的“奥斯卡”,哪家大模型角色扮演更入戏? 来自香港科技大学、腾讯、新加坡管理大学的团队提出新综述—— 不仅系统性地回顾了角色扮演语言模型的发展历程,还对每个阶段的关键进展进行了深入剖析,展示了这些进展如何推动模型逐步实现更复杂、更逼真的角色扮演。

来自主题: AI技术研报
5958 点击    2024-11-03 14:39
微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑

微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑

微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑

Transformer自问世后就大放异彩,但有个小毛病一直没解决: 总爱把注意力放在不相关的内容上,也就是信噪比低。 现在微软亚研院、清华团队出手,提出全新改进版Differential Transformer,专治这个老毛病,引起热议。

来自主题: AI技术研报
4056 点击    2024-11-03 14:32
李虹团队发布两款AI模型,预测单药和联合用药疗效

李虹团队发布两款AI模型,预测单药和联合用药疗效

李虹团队发布两款AI模型,预测单药和联合用药疗效

中国科学院上海营养与健康研究所李虹研究组多年来在抗癌药物疗效建模方向持续深耕,发表了基于分子组学预测药物响应和肝癌药物基因组相关的系列论文。但前期研究表明肿瘤用药的计算分析仍存在诸多挑战,例如:肿瘤临床前模型和病人存在差异,计算模型缺乏泛化能力;药物组合的作用机制复杂搜索空间大,对药物联用协同效果的准确和稳健估计仍很困难。

来自主题: AI技术研报
5762 点击    2024-11-03 11:24
万亿市场 !开源AI大模型发展研究报告 2024

万亿市场 !开源AI大模型发展研究报告 2024

万亿市场 !开源AI大模型发展研究报告 2024

随着开源技术占据各大新兴领域的技术路线,其不断丰富人工智能领域的应用场景。 2023年,Meta 相继发布 Llama 和 Llama2,很快成为广受欢迎的开源大模型,也成为许多模型的基座模型。

来自主题: AI技术研报
6856 点击    2024-11-03 11:09
大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架

大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架

大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架

改进KV缓存压缩,大模型推理显存瓶颈迎来新突破—— 中科大研究团队提出Ada-KV,通过自适应预算分配算法来优化KV缓存的驱逐过程,以提高推理效率。

来自主题: AI技术研报
4801 点击    2024-11-02 19:10
3B模型打通机器人任督二脉!冲咖啡叠衣服都能干,7种形态适配,OpenAI也投了

3B模型打通机器人任督二脉!冲咖啡叠衣服都能干,7种形态适配,OpenAI也投了

3B模型打通机器人任督二脉!冲咖啡叠衣服都能干,7种形态适配,OpenAI也投了

只要一个3B参数的大模型,就能控制机器人,帮你搞定各种家务。 叠衣服冲咖啡都能轻松拿捏,而且全都是由模型自主控制,不需要遥控。 关键是,这还是个通用型的机器人控制模型,不同种类的机器人都能“通吃”。

来自主题: AI技术研报
5077 点击    2024-11-02 19:06
MPDS:提升电影海报生成效率的新型数据集

MPDS:提升电影海报生成效率的新型数据集

MPDS:提升电影海报生成效率的新型数据集

MPDS(Movie Posters Dataset)是一个创新的电影海报数据集,旨在解决现有图像生成模型在制作电影海报时面临的挑战。

来自主题: AI技术研报
10969 点击    2024-11-02 17:21
Allegro:开创商业级视频生成新纪元

Allegro:开创商业级视频生成新纪元

Allegro:开创商业级视频生成新纪元

Allegro 是一款先进的商业级视频生成模型,由Rhymes AI团队开发。它通过将描述性文本转换为动态视觉内容,为用户提供了一种灵活且可控的视频创作方法。

来自主题: AI技术研报
7235 点击    2024-11-02 17:15
NeurIPS 2024|浙大 & 微信 & 清华:彻底解决扩散模型反演问题

NeurIPS 2024|浙大 & 微信 & 清华:彻底解决扩散模型反演问题

NeurIPS 2024|浙大 & 微信 & 清华:彻底解决扩散模型反演问题

随着扩散生成模型的发展,人工智能步入了属于 AIGC 的新纪元。扩散生成模型可以对初始高斯噪声进行逐步去噪而得到高质量的采样。当前,许多应用都涉及扩散模型的反演,即找到一个生成样本对应的初始噪声。当前的采样器不能兼顾反演的准确性和采样的质量。

来自主题: AI技术研报
7591 点击    2024-11-02 17:08
多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

多图像场景也能用DPO方法来对齐了! 由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO。 这是一个面向大型视觉语言模型的多图像增强的偏好对齐方法。

来自主题: AI技术研报
5147 点击    2024-11-01 20:53
清华团队革新MoE架构!像搭积木一样构建大模型,提出新型类脑稀疏模块化架构

清华团队革新MoE架构!像搭积木一样构建大模型,提出新型类脑稀疏模块化架构

清华团队革新MoE架构!像搭积木一样构建大模型,提出新型类脑稀疏模块化架构

探索更高效的模型架构, MoE是最具代表性的方向之一。 MoE架构的主要优势是利用稀疏激活的性质,将大模型拆解成若干功能模块,每次计算仅激活其中一小部分,而保持其余模块不被使用,从而大大降低了模型的计算与学习成本,能够在同等计算量的情况下产生性能优势。

来自主题: AI技术研报
4423 点击    2024-11-01 17:11
AutoStory生成漫画,解决人物生成一致性问题

AutoStory生成漫画,解决人物生成一致性问题

AutoStory生成漫画,解决人物生成一致性问题

本文介绍了一种自动化故事可视化系统,可以生成多样化、高质量、一致性强的故事图像,且需要最少的人工干预。

来自主题: AI技术研报
5677 点击    2024-11-01 15:04
打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

CGPO框架通过混合评审机制和约束优化器,有效解决了RLHF在多任务学习中的奖励欺骗和多目标优化问题,显著提升了语言模型在多任务环境中的表现。CGPO的设计为未来多任务学习提供了新的优化路径,有望进一步提升大型语言模型的效能和稳定性。

来自主题: AI技术研报
4246 点击    2024-11-01 14:54
NeurIPS 2024 | 机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%

NeurIPS 2024 | 机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%

NeurIPS 2024 | 机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%

对于人类而言,一旦掌握了 “打开瓶盖” 的动作,面对 “拧紧螺丝” 这样的任务通常也能游刃有余,因为这两者依赖于相似的手部动作。然而,对于机器人来说,即使是这样看似简单的任务转换依然充满挑战。例如,换成另一种类型的瓶盖,机器人可能无法成功打开。这表明,目前的机器人方法尚未充分让模型学习到任务的内在执行逻辑,而只是单纯的依赖于数据拟合。

来自主题: AI技术研报
8077 点击    2024-11-01 13:05
Unbounded:来自Google的AI驱动角色模拟无限游戏

Unbounded:来自Google的AI驱动角色模拟无限游戏

Unbounded:来自Google的AI驱动角色模拟无限游戏

Unbounded 是由 Google 研发的一个创新的角色模拟生成性无限游戏,它通过采用最新的生成模型技术,突破了传统视频游戏的局限。

来自主题: AI技术研报
8926 点击    2024-11-01 12:34
Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2 是苹果研究团队最新发表的一款先进的多模态大型语言模型(MLLM),旨在实现跨多个平台的通用用户界面(UI)理解。

来自主题: AI技术研报
8199 点击    2024-11-01 12:27
Agent-to-Sim:从日常视频学习并模拟三维代理的交互行为

Agent-to-Sim:从日常视频学习并模拟三维代理的交互行为

Agent-to-Sim:从日常视频学习并模拟三维代理的交互行为

Agent-to-Sim (ATS) 是一个创新的三维模拟系统,能够从日常视频集合中学习三维代理的交互行为模型,由 Meta Codec Avatar 实验室主导研发。

来自主题: AI技术研报
6125 点击    2024-11-01 12:19
OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器

OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器

OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器

OmniParser 是由微软研究院提出的一个创新性工具,旨在通过解析用户界面截图来增强基于视觉的图形用户界面(GUI)代理的性能。

来自主题: AI技术研报
6728 点击    2024-11-01 12:13
利用大模型构建个性化虚拟学生代理:SOE框架的多维度评估研究

利用大模型构建个性化虚拟学生代理:SOE框架的多维度评估研究

利用大模型构建个性化虚拟学生代理:SOE框架的多维度评估研究

来自华东师范大学、南洋理工和中科院等高校的联合研究团队提出了一种新颖的人工智能教育框架“场景-对象-评估”(SOE),旨在利用大型语言模型(LLMs)构建能够模拟人类学生行为和个体差异的虚拟学生代理(LVSA)。

来自主题: AI技术研报
8126 点击    2024-11-01 12:06
大模型训练成本降一半!厦大和vivo联合推出预训练新策略,给LLM降本增效

大模型训练成本降一半!厦大和vivo联合推出预训练新策略,给LLM降本增效

大模型训练成本降一半!厦大和vivo联合推出预训练新策略,给LLM降本增效

近年来,大语言模型(Large Language Models, LLMs)的研究取得了重大进展,并对各个领域产生了深远影响。然而,LLMs的卓越性能来源于海量数据的大规模训练,这导致LLMs的训练成本明显高于传统模型。

来自主题: AI技术研报
4754 点击    2024-11-01 10:15
NotebookLM为什么可以生成更加自然的对话?谷歌官方公布背后的技术细节

NotebookLM为什么可以生成更加自然的对话?谷歌官方公布背后的技术细节

NotebookLM为什么可以生成更加自然的对话?谷歌官方公布背后的技术细节

DeepMind 公布其正在开发一套创新的音频生成技术细节,也就是NotebookLM背后使用的语音技术。使 AI 能够生成更加自然的对话和高质量的音频。这些技术不仅提升了语音助手的交互性,还帮助多种应用在语音合成和对话生成上取得更大进展。

来自主题: AI技术研报
5835 点击    2024-10-31 15:26
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE

新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE

新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE

自去年底以来,时序预测领域正在经历重大转型,从传统的「单一数据集训练单一模型」的模式逐步转向「通用预测基础模型」。

来自主题: AI技术研报
4838 点击    2024-10-31 15:11
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放

个性化精品数字人(Personalized Talking Face Generation)强调合成的数字人视频在感官上与真人具有极高的相似性(不管是说话人的外表还是神态)。

来自主题: AI技术研报
5685 点击    2024-10-31 15:09
让机器人拥有人一样「潜意识」,英伟达1.5M小模型就能实现通用控制了

让机器人拥有人一样「潜意识」,英伟达1.5M小模型就能实现通用控制了

让机器人拥有人一样「潜意识」,英伟达1.5M小模型就能实现通用控制了

大模型固然性能强大,但限制也颇多。如果想在端侧塞进 405B 这种级别的大模型,那真是小庙供不起大菩萨。近段时间,小模型正在逐渐赢得人们更多关注。这一趋势不仅出现在语言模型领域,也出现在了机器人领域。

来自主题: AI技术研报
5045 点击    2024-10-31 15:06
大规模、动态「语音增强/分离」新基准!清华发布移动音源仿真平台SonicSim,含950+小时训练数据

大规模、动态「语音增强/分离」新基准!清华发布移动音源仿真平台SonicSim,含950+小时训练数据

大规模、动态「语音增强/分离」新基准!清华发布移动音源仿真平台SonicSim,含950+小时训练数据

清华大学推出的SonicSim平台和SonicSet数据集针对动态声源的语音处理研究提供了强有力的工具和数据支持,有效降低了数据采集成本,实验证明这些工具能有效提升模型在真实环境中的性能。

来自主题: AI技术研报
4658 点击    2024-10-31 14:41
探索LLM推理全阶段的JSON格式输出限制方法

探索LLM推理全阶段的JSON格式输出限制方法

探索LLM推理全阶段的JSON格式输出限制方法

文章详细讨论了如何确保大型语言模型(LLMs)输出结构化的JSON格式,这对于提高数据处理的自动化程度和系统的互操作性至关重要。

来自主题: AI技术研报
11376 点击    2024-10-31 10:14
重磅!IBM:PDL提示词声明语言,帮你拿回Prompt控制权

重磅!IBM:PDL提示词声明语言,帮你拿回Prompt控制权

重磅!IBM:PDL提示词声明语言,帮你拿回Prompt控制权

在当前大语言模型(LLM)蓬勃发展的环境下,Prompt工程师们面临着一个两难困境:要么使用像LangChain这样功能强大但学习曲线陡峭的框架,要么选择自动化程度更高DSPy但牺牲了对提示词精确控制的工具。IBM研究院和UC Davis大学最近推出的PDL(Prompt Declaration Language,提示词声明语言)或许打破了这个困境,让AI开发者能真正拿回Prompt的控制权。

来自主题: AI技术研报
6092 点击    2024-10-31 09:54