AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
字节多模态大模型PixelLM:高效像素级推理,无需依赖SAM

字节多模态大模型PixelLM:高效像素级推理,无需依赖SAM

字节多模态大模型PixelLM:高效像素级推理,无需依赖SAM

目前大多数模型的能力还是局限于生成对整体图像或特定区域的文本描述,在像素级理解方面的能力(例如物体分割)相对有限。

来自主题: AI技术研报
9789 点击    2023-12-28 17:37
大模型鲁棒不鲁棒,PromptBench测一测: 首个大语言模型提示鲁棒性的评测基准PromptBench

大模型鲁棒不鲁棒,PromptBench测一测: 首个大语言模型提示鲁棒性的评测基准PromptBench

大模型鲁棒不鲁棒,PromptBench测一测: 首个大语言模型提示鲁棒性的评测基准PromptBench

作为连接人类与大模型的桥梁,大模型对 「Prompt (提示词)」 究竟有多敏感?同样的prompt,可能写错个单词、写法不一样,都会出现不一样的结果。

来自主题: AI技术研报
7903 点击    2023-12-27 14:30
我用ChatGPT设计了一颗芯片

我用ChatGPT设计了一颗芯片

我用ChatGPT设计了一颗芯片

使用LLM来制造芯片, 过去一年多以来,ChatGPT引发的AI浪潮席卷全球。

来自主题: AI技术研报
8948 点击    2023-12-26 15:22
成立2年融资近9亿!AI NPC引爆游戏行业巨变,微软等大厂已经入局

成立2年融资近9亿!AI NPC引爆游戏行业巨变,微软等大厂已经入局

成立2年融资近9亿!AI NPC引爆游戏行业巨变,微软等大厂已经入局

游戏行业真在加速拥抱大语言模型等AI技术,不论是大厂还是独立游戏制作人,都开始依靠LLM的技术创立全新的AI NPC体验。

来自主题: AI技术研报
8891 点击    2023-12-25 15:52
华人团队用大模型实现“读心术”:大脑活动直接变文字 | NeurIPS 2023

华人团队用大模型实现“读心术”:大脑活动直接变文字 | NeurIPS 2023

华人团队用大模型实现“读心术”:大脑活动直接变文字 | NeurIPS 2023

NeurIPS收录的一项新研究,让大模型也学会“读心术”了!通过学习脑电波数据,模型成功地把受试者的脑电图信号翻译成了文本。

来自主题: AI技术研报
6437 点击    2023-12-18 15:13
NeurIPS 2023|有效提高视频编辑一致性,美图&国科大提出基于文生图模型新方法EI²

NeurIPS 2023|有效提高视频编辑一致性,美图&国科大提出基于文生图模型新方法EI²

NeurIPS 2023|有效提高视频编辑一致性,美图&国科大提出基于文生图模型新方法EI²

美图影像研究院(MT Lab)与中国科学院大学突破性地提出了基于文生图模型的视频生成新方法 EI2,用于提高视频编辑过程中的语义和内容两方面的一致性。

来自主题: AI技术研报
5233 点击    2023-12-18 14:28
源代码is all you need!7B代码小模型同尺寸无敌,性能媲美ChatGPT和谷歌Gemini

源代码is all you need!7B代码小模型同尺寸无敌,性能媲美ChatGPT和谷歌Gemini

源代码is all you need!7B代码小模型同尺寸无敌,性能媲美ChatGPT和谷歌Gemini

软件开发人员对代码生成 AI 已经不陌生,它们已经成为提高生产力的利器。本文中,伊利诺伊大学香槟分校(UIUC)张令明老师团队带来了代码生成 AI 领域的又一力作 ——Magicoder,在短短一周之内狂揽 1200 多颗 GitHub Star,登上 GitHub Trending 日榜,并获推特大佬 AK(@_akhaliq)发推力荐。

来自主题: AI技术研报
8845 点击    2023-12-18 11:03
走在GPT 4.5前面?3D、视频直接扔进对话框,大模型掌握跨模态推理

走在GPT 4.5前面?3D、视频直接扔进对话框,大模型掌握跨模态推理

走在GPT 4.5前面?3D、视频直接扔进对话框,大模型掌握跨模态推理

最近,有人在社交媒体上发布了一张有关 GPT4.5 更新的截图。图中内容显示,和 GPT 系列之前推出的模型相比,GPT4.5 最大的惊喜可能就是处理 3D 和视频的能力。至于 3D 能力到底是指看得懂 3D 图像,还是能输入 3D 模型,目前只能靠猜。

来自主题: AI技术研报
5332 点击    2023-12-17 19:41
大模型视角下的因果推断

大模型视角下的因果推断

大模型视角下的因果推断

在数字化建设不断推进的今天,随着技术的不断发展,从统计学、机器学习、深度学习,再到因果学习以及最新的热门大模型方向,九章云极 DataCanvas 始终紧贴最前沿的、最能助力企业和落地实践的方向,不断进行着面向决策和面向智能的探索。本文将分享大模型时代下的因果推断。

来自主题: AI技术研报
4806 点击    2023-12-17 12:27
Mistral携微软引爆「小语言模型」潮!Mistral中杯代码能力完胜GPT-4,成本暴降2/3

Mistral携微软引爆「小语言模型」潮!Mistral中杯代码能力完胜GPT-4,成本暴降2/3

Mistral携微软引爆「小语言模型」潮!Mistral中杯代码能力完胜GPT-4,成本暴降2/3

小模型的风潮,最近愈来愈盛,Mistral和微软分别有所动作。而网友实测发现,Mistral-medium的代码能力竟然完胜了GPT-4,而所花成本还不到三分之一。

来自主题: AI技术研报
7811 点击    2023-12-17 12:15
GPT-4.5大泄露,支持视频3D、价格狂涨6倍?奥特曼亲自回应

GPT-4.5大泄露,支持视频3D、价格狂涨6倍?奥特曼亲自回应

GPT-4.5大泄露,支持视频3D、价格狂涨6倍?奥特曼亲自回应

GPT 4.5疑似大泄漏: 一个是新模型将具备全新多模态能力,文本语音图片以及视频和3D信息全都能一并处理,并且还可以跨模态理解。

来自主题: AI技术研报
7906 点击    2023-12-15 18:57
HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架

HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架

HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架

在 3D 生成领域,根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。

来自主题: AI技术研报
7715 点击    2023-12-10 14:27
一战、二战情景复现?AI Agent 成功还原多场人类战争,为理解历史事件提供新工具

一战、二战情景复现?AI Agent 成功还原多场人类战争,为理解历史事件提供新工具

一战、二战情景复现?AI Agent 成功还原多场人类战争,为理解历史事件提供新工具

日前,由美国罗格斯大学和密西根大学研究团队提出的 AI Agent——WarAgent 便成功模拟了包括第一次世界大战、第二次世界大战和中国古代战国时期战争在内的历史重大国际冲突。

来自主题: AI技术研报
9935 点击    2023-12-06 17:34
横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

哈工深发布全新多模态大语言模型九天(JiuTian-LION),融合细粒度空间感知和高层语义视觉知识,在13个评测任务上实现了sota性能。

来自主题: AI技术研报
9372 点击    2023-12-04 18:01
微软亚洲研究院韦福如:人工智能基础创新的第二增长曲线

微软亚洲研究院韦福如:人工智能基础创新的第二增长曲线

微软亚洲研究院韦福如:人工智能基础创新的第二增长曲线

从人工智能的发展历程来看,GPT 系列模型(例如 ChatGPT 和 GPT-4)的问世无疑是一个重要的里程碑。由它所驱动的人工智能应用已经展现出高度的通用性和可用性,并且能够覆盖多个场景和行业 —— 这在人工智能的历史上前所未有。

来自主题: AI技术研报
6907 点击    2023-12-01 15:00
最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了

最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了

最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了

目前最好的大型多模态模型 GPT-4V 与大学生谁更强?我们还不知道,但近日一个新的基准数据集 MMMU 以及基于其的基准测试或许能给我们提供一点线索,

来自主题: AI技术研报
10571 点击    2023-12-01 14:53
用上这个工具包,大模型推理性能加速达40倍

用上这个工具包,大模型推理性能加速达40倍

用上这个工具包,大模型推理性能加速达40倍

只需不到9行代码,就能在CPU上实现出色的LLM推理性能。英特尔® Extension for Transformer创新工具包中的LLM Runtime为诸多模型显著降低时延,且首个token和下一个token的推理速度分别提升多达40倍和2.68倍,还能满足更多场景应用需求。

来自主题: AI技术研报
4169 点击    2023-11-30 19:10
SDXL Turbo、LCM相继发布,AI画图进入实时生成时代:字打多快,出图就有多快

SDXL Turbo、LCM相继发布,AI画图进入实时生成时代:字打多快,出图就有多快

SDXL Turbo、LCM相继发布,AI画图进入实时生成时代:字打多快,出图就有多快

,Stability AI 推出了新一代图像合成模型 Stable Diffusion XL Turbo,引发了一片叫好。人们纷纷表示,图像到文本生成从来没有这么轻松。

来自主题: AI技术研报
4682 点击    2023-11-30 14:00
Nature重磅:17天独自创造41种新材料,AI再次赢了人类

Nature重磅:17天独自创造41种新材料,AI再次赢了人类

Nature重磅:17天独自创造41种新材料,AI再次赢了人类

只用了 17 天,人工智能(AI)便独自创造了 41 种新材料,每天超过两种。相比之下,人类科学家可能需要几个月的尝试和实验,才能创造出一种新材料。

来自主题: AI技术研报
7996 点击    2023-11-30 11:20
Keras 3.0一统江湖!大更新整合PyTorch、JAX,全球250万开发者在用了

Keras 3.0一统江湖!大更新整合PyTorch、JAX,全球250万开发者在用了

Keras 3.0一统江湖!大更新整合PyTorch、JAX,全球250万开发者在用了

今天,备受广大开发者欢迎的深度学习框架Keras,正式更新了3.0版本,实现了对PyTorch和JAX的支持,同时性能提升,还能轻松实现大规模分布式训练。

来自主题: AI技术研报
5383 点击    2023-11-29 15:23
超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能

超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能

超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能

研究人员利用GPT4-Vision构建了一个大规模高质量图文数据集ShareGPT4V,并在此基础上训练了一个7B模型,在多项多模态榜单上超越了其他同级模型。

来自主题: AI技术研报
10192 点击    2023-11-29 15:05
首个全面开源的千亿模型来了!源2.0全家桶击破算力限制,代码数学强到发指

首个全面开源的千亿模型来了!源2.0全家桶击破算力限制,代码数学强到发指

首个全面开源的千亿模型来了!源2.0全家桶击破算力限制,代码数学强到发指

浪潮信息发布源2.0基础大模型,并一口气开源了1026亿、518亿、21亿三个大模型!而在编程、推理、逻辑这些老大难问题上,源2.0都表现出了令人印象深刻的性能。

来自主题: AI技术研报
6541 点击    2023-11-28 15:25
简化版Transformer来了,网友:年度论文

简化版Transformer来了,网友:年度论文

简化版Transformer来了,网友:年度论文

Transformer 架构可以说是近期深度学习领域许多成功案例背后的主力军。构建深度 Transformer 架构的一种简单方法是将多个相同的 Transformer 「块」(block)依次堆叠起来,但每个「块」都比较复杂,由许多不同的组件组成,需要以特定的排列组合才能实现良好的性能。

来自主题: AI技术研报
7291 点击    2023-11-28 14:44
GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理

GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理

GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理

来自中国科学院深圳先进技术研究院、中国科学院大学和 VIVO AI Lab 的研究者联合提出了一个无需训练的文本生成视频新框架 ——GPT4Motion。GPT4Motion 结合了 GPT 等大型语言模型的规划能力、Blender 软件提供的物理模拟能力,以及扩散模型的文生图能力,旨在大幅提升视频合成的质量。

来自主题: AI技术研报
7611 点击    2023-11-28 11:16
单个A100生成3D图像只需30秒,这是Adobe让文本、图像都动起来的新方法

单个A100生成3D图像只需30秒,这是Adobe让文本、图像都动起来的新方法

单个A100生成3D图像只需30秒,这是Adobe让文本、图像都动起来的新方法

3D 生成是 AI 视觉领域的研究热点之一。本文中,来自 Adobe 研究院和斯坦福大学等机构的研究者利用基于 transformer 的 3D 大型重建模型来对多视图扩散进行去噪,并提出了一种新颖的 3D 生成方法 DMV3D,实现了新的 SOTA 结果。

来自主题: AI技术研报
7795 点击    2023-11-28 10:35