AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
小米新一代Kaldi团队论文解读:新型自动语音识别 (ASR) 模型Zipformer诞生之路|ICLR 2024 Oral

小米新一代Kaldi团队论文解读:新型自动语音识别 (ASR) 模型Zipformer诞生之路|ICLR 2024 Oral

小米新一代Kaldi团队论文解读:新型自动语音识别 (ASR) 模型Zipformer诞生之路|ICLR 2024 Oral

近日,小米集团新一代 Kaldi 团队关于语音识别声学模型的论文《Zipformer: A faster and better encoder for automatic speech recognition》被 ICLR 2024 接收为 Oral (Top 1.2%)。

来自主题: AI技术研报
4695 点击    2024-01-25 12:39
首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

目标跟踪是计算机视觉的一项基础视觉任务,由于计算机视觉的快速发展,单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性,我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷,以实现复杂环境下全天候目标跟踪。

来自主题: AI技术研报
10040 点击    2024-01-24 14:10
大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一

大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一

大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一

去年,在加速大语言模型推理层面,我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今,关于 Medusa 终于有了完整技术论文,还提供了新的版本。

来自主题: AI技术研报
4852 点击    2024-01-24 14:06
LLM会写代码≠推理+规划!AAAI主席揭秘:代码数据质量太高|LeCun力赞

LLM会写代码≠推理+规划!AAAI主席揭秘:代码数据质量太高|LeCun力赞

LLM会写代码≠推理+规划!AAAI主席揭秘:代码数据质量太高|LeCun力赞

自从ChatGPT发布后,各种基于大模型的产品也快速融入了普通人的生活中,但即便非AI从业者在使用过几次后也可以发现,大模型经常会胡编乱造,生成错误的事实。

来自主题: AI技术研报
3581 点击    2024-01-23 15:28
消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型

消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型

消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型

谷歌和威斯康星麦迪逊大学的研究人员推出了一个让LLM给自己输出打分的选择性预测系统,通过软提示微调和自评估学习,取得了比10倍规模大的模型还要好的成绩,为开发下一代可靠的LLM提供了一个非常好的方向。

来自主题: AI技术研报
9503 点击    2024-01-23 15:20
MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数

MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数

MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数

状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。而基于选择性 SSM 和硬件感知型设计的 Mamba 更是表现出色,成为了基于注意力的 Transformer 架构的一大有力替代架构。

来自主题: AI技术研报
10682 点击    2024-01-23 15:09
GPT-4击败华尔街?最新研究:选股回报超40%

GPT-4击败华尔街?最新研究:选股回报超40%

GPT-4击败华尔街?最新研究:选股回报超40%

GPT-4表现比基准指数高出13%,回报率高达40%,同时保持了与市场相当的风险状况。

来自主题: AI技术研报
5923 点击    2024-01-23 14:51
世界顶尖多模态大模型开源!又是零一万物,又是李开复

世界顶尖多模态大模型开源!又是零一万物,又是李开复

世界顶尖多模态大模型开源!又是零一万物,又是李开复

领跑中英文两大权威榜单,李开复零一万物交出多模态大模型答卷!

来自主题: AI技术研报
3774 点击    2024-01-22 15:37
谷歌2024新年目标曝光:一边做地表最强AI,一边裁更多员工

谷歌2024新年目标曝光:一边做地表最强AI,一边裁更多员工

谷歌2024新年目标曝光:一边做地表最强AI,一边裁更多员工

外媒曝出谷歌2024年公司目标:做全球最强AI,同时要再裁更多的员工。网友吐槽,CEO拿巨额工资,产品无故取消,却只知道开人。

来自主题: AI技术研报
5617 点击    2024-01-22 15:14
Agent触摸汉堡辨冷热,首次拥有类人感官!UCLA等发布3D多模态交互具身智能大模型

Agent触摸汉堡辨冷热,首次拥有类人感官!UCLA等发布3D多模态交互具身智能大模型

Agent触摸汉堡辨冷热,首次拥有类人感官!UCLA等发布3D多模态交互具身智能大模型

Sam Altman认为AGI很快就会降临,但若是没有感官兼备的AI何以称为智能?最近,UCLA等机构研究人员提出多模态具身智能大模型MultiPLY,AI可以知冷知热、辨音识物。

来自主题: AI技术研报
10674 点击    2024-01-22 15:05
视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

Transformer 在大模型领域的地位可谓是难以撼动。不过,这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后,局限性也愈发凸显了。Mamba的出现,正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。

来自主题: AI技术研报
8346 点击    2024-01-22 14:43
傅盛揭穿OpenAI「阳谋」,引130万人围观!百亿参数模型帮老板打王者,一张3060就能跑

傅盛揭穿OpenAI「阳谋」,引130万人围观!百亿参数模型帮老板打王者,一张3060就能跑

傅盛揭穿OpenAI「阳谋」,引130万人围观!百亿参数模型帮老板打王者,一张3060就能跑

就在刚刚,OpenAI的最大秘密,被傅盛在130万人面前揭穿!百亿参数,竟能在企业级应用中媲美千亿级大模型;一张3060,就能帮老板打到「王者」!

来自主题: AI技术研报
9270 点击    2024-01-22 10:41
Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局

Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局

Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局

AI训AI必将成为一大趋势。Meta和NYU团队提出让大模型「自我奖励」的方法,让Llama2一举击败GPT-4 0613、Claude 2、Gemini Pro领先模型。

来自主题: AI技术研报
8081 点击    2024-01-22 10:34
清华、小米、华为、 vivo、理想等多机构联合综述,首提个人LLM智能体、划分5级智能水平

清华、小米、华为、 vivo、理想等多机构联合综述,首提个人LLM智能体、划分5级智能水平

清华、小米、华为、 vivo、理想等多机构联合综述,首提个人LLM智能体、划分5级智能水平

IPA 已经成了现代智能手机不可或缺的标配,近期的一篇综述论文更是认为「个人 LLM 智能体会成为 AI 时代个人计算的主要软件范式」。

来自主题: AI技术研报
7659 点击    2024-01-21 14:32
Pika、Gen-2、ModelScope、SEINE……AI视频生成哪家强?这个框架一测便知

Pika、Gen-2、ModelScope、SEINE……AI视频生成哪家强?这个框架一测便知

Pika、Gen-2、ModelScope、SEINE……AI视频生成哪家强?这个框架一测便知

AI 视频生成,是最近最热门的领域之一。各个高校实验室、互联网巨头 AI Lab、创业公司纷纷加入了 AI 视频生成的赛道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等视频生成模型的发布,更是让人眼前一亮。

来自主题: AI技术研报
7243 点击    2024-01-21 14:19
普林斯顿博士生高天宇指令微调进展速览:数据、算法和评估

普林斯顿博士生高天宇指令微调进展速览:数据、算法和评估

普林斯顿博士生高天宇指令微调进展速览:数据、算法和评估

自 ChatGPT 等大型语言模型推出以来,为了提升模型效果,各种指令微调方法陆续被提出。本文中,普林斯顿博士生、陈丹琦学生高天宇汇总了指令微调领域的进展,包括数据、算法和评估等。

来自主题: AI技术研报
7154 点击    2024-01-21 14:14
一张照片,为深度学习巨头们定制人像图片

一张照片,为深度学习巨头们定制人像图片

一张照片,为深度学习巨头们定制人像图片

主题驱动的文本到图像生成,通常需要在多张包含该主题(如人物、风格)的数据集上进行训练,这类方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等,但这类方案因为需要更新整个网络或较长时间的定制化训练,往往无法很有效地兼容社区已有的模型,并无法在真实场景中快速且低成本应用。

来自主题: AI技术研报
9948 点击    2024-01-20 14:53
最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发

最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发

最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发

Mixtral 8x7B模型开源后,AI社区再次迎来一大波微调实践。来自Nous Research应用研究小组团队微调出新一代大模型Nous-Hermes 2 Mixtral 8x7B,在主流基准测试中击败了Mixtral Instruct。

来自主题: AI技术研报
7993 点击    2024-01-19 14:25
小扎砸数百亿美元猛攻开源AGI!狂掷60万块H100,爆50倍GPT-4算力

小扎砸数百亿美元猛攻开源AGI!狂掷60万块H100,爆50倍GPT-4算力

小扎砸数百亿美元猛攻开源AGI!狂掷60万块H100,爆50倍GPT-4算力

今天,小扎正式宣战「开源AGI」!下一代大模型Llama 3正在训练,年底将拥有35万块H100,届时算力总和达60万块H100。为了追赶OpenAI,成立十年的FAIR团队纳入GenAI,全力奔赴AGI。

来自主题: AI技术研报
6717 点击    2024-01-19 14:16
Rewind 的 PLG 增长之路,以及如何在 A 轮就得到 3.5 亿美元的估值?

Rewind 的 PLG 增长之路,以及如何在 A 轮就得到 3.5 亿美元的估值?

Rewind 的 PLG 增长之路,以及如何在 A 轮就得到 3.5 亿美元的估值?

大模型出现后,AI 实现全能个人助理的梦想似乎近在眼前,也有不少公司推出了相应的硬件/软件,比如此前我们介绍的 AI Pin 以及 Rewind。

来自主题: AI技术研报
7567 点击    2024-01-19 10:39
一篇文章搞懂LangChain

一篇文章搞懂LangChain

一篇文章搞懂LangChain

现在,为了实现相同的目标,我们有两个最著名的库,即 Haystack 和 LangChain,它们可以帮助我们创建基于大语言模型的端到端应用程序或流程。

来自主题: AI技术研报
7012 点击    2024-01-18 18:33