AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
打破生态孤岛,国产异构原生AI算力工具问世,来自中科加禾

打破生态孤岛,国产异构原生AI算力工具问世,来自中科加禾

打破生态孤岛,国产异构原生AI算力工具问世,来自中科加禾

「通过系统优化软件的帮助,开发的门槛会被降低,各种不同硬件会得到统一,让技术生态得到发展。

来自主题: AI技术研报
8896 点击    2024-07-21 17:03
前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?

前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?

前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?

前谷歌科学家Yi Tay重磅推出「LLM时代的模型架构」系列博客,首篇博文的话题关于:基于encoder-only架构的BERT是如何被基于encoder-decoder架构的T5所取代的,分析了BERT灭绝的始末以及不同架构模型的优缺点,以史为鉴,对于未来的创新具有重要意义。

来自主题: AI技术研报
10038 点击    2024-07-21 16:58
斯坦福博士图解AlphaFold 3:超多细节+可视化还原ML工程师眼中的AF3

斯坦福博士图解AlphaFold 3:超多细节+可视化还原ML工程师眼中的AF3

斯坦福博士图解AlphaFold 3:超多细节+可视化还原ML工程师眼中的AF3

AlphaFold 3的论文太晦涩?没关系,斯坦福大学的两位博士生「图解」AlphaFold 3 ,将模型架构可视化,同时不遗漏任何一个细节。

来自主题: AI技术研报
9329 点击    2024-07-21 16:53
OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源

OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源

OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源

小模型时代来了?OpenAI带着GPT-4o mini首次入局小模型战场,Mistral AI、HuggingFace本周接连发布了小模型。如今,苹果也发布了70亿参数小模型DCLM,性能碾压Mistral-7B。

来自主题: AI技术研报
9010 点击    2024-07-21 16:46
使用视觉语言模型进行 PDF 检索 [译]

使用视觉语言模型进行 PDF 检索 [译]

使用视觉语言模型进行 PDF 检索 [译]

近年来,随着大语言模型 (LLM) 的发展,构建检索增强生成 (RAG) 解决方案成为了一个热门话题。RAG 将 LLM 的强大功能与检索模型结合,应用于专有知识数据库。然而,对于开发人员来说,一个主要挑战是将各种文档格式(如 PDF、HTML 等)转换为可供文本模型处理的格式。

来自主题: AI技术研报
9340 点击    2024-07-21 14:12
LoRA综述来了! 浙大《大语言模型的LoRA研究》综述

LoRA综述来了! 浙大《大语言模型的LoRA研究》综述

LoRA综述来了! 浙大《大语言模型的LoRA研究》综述

低秩适应(Low-Rank Adaptation,LoRA)通过可插拔的低秩矩阵更新密集神经网络层,是当前参数高效微调范式中表现最佳的方法之一。此外,它在跨任务泛化和隐私保护方面具有显著优势。

来自主题: AI技术研报
11138 点击    2024-07-21 14:02
从LLM到AI Agent,从Workflow到Agentic Workflow,25篇论文全面了解智能体工作流

从LLM到AI Agent,从Workflow到Agentic Workflow,25篇论文全面了解智能体工作流

从LLM到AI Agent,从Workflow到Agentic Workflow,25篇论文全面了解智能体工作流

著名AI学者、斯坦福大学教授吴恩达提出了AI Agent的四种设计方式后,Agentic Workflow(智能体工作流)立即火爆全球,多个行业都在实践智能体工作流的应用,并推动了新的Agentic AI探索热潮。

来自主题: AI技术研报
8260 点击    2024-07-19 16:34
LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

随着大语言模型展现出惊人的语言智能,各大 AI 公司纷纷推出自己的大模型。这些大模型通常在不同领域和任务上各有所长,如何将它们集成起来以挖掘其互补潜力,成为了 AI 研究的前沿课题。

来自主题: AI技术研报
8862 点击    2024-07-19 16:21
华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

MoE 因其在训推流程中低销高效的特点,近两年在大语言模型领域大放异彩。作为 MoE 的灵魂,专家如何能够发挥出最大的学习潜能,相关的研究与讨论层出不穷。此前,华为 GTS AI 计算 Lab 的研究团队提出了 LocMoE ,包括新颖的路由网络结构、辅助降低通信开销的本地性 loss 等,引发了广泛关注。

来自主题: AI技术研报
4894 点击    2024-07-19 16:16
假开源真噱头?Meta再陷「开源」争议,LeCun被炮轰Meta只是开放模型

假开源真噱头?Meta再陷「开源」争议,LeCun被炮轰Meta只是开放模型

假开源真噱头?Meta再陷「开源」争议,LeCun被炮轰Meta只是开放模型

大模型开源的热潮下,隐藏着诸多问题,从定义的模糊到实际开放内容的局限性,Lecun再陷Meta大模型是否真开源的质疑风波只是冰山一角。

来自主题: AI技术研报
8805 点击    2024-07-19 12:34
清华提出时间序列大模型:面向通用时序分析的生成式Transformer | ICML 2024

清华提出时间序列大模型:面向通用时序分析的生成式Transformer | ICML 2024

清华提出时间序列大模型:面向通用时序分析的生成式Transformer | ICML 2024

大模型在语言、图像领域取得了巨大成功,时间序列作为多个行业的重要数据类型,时序领域的大模型构建尚处于起步阶段。近期,清华大学的研究团队基于Transformer在大规模时间序列上进行生成式预训练,获得了任务通用的时序分析模型,展现出大模型特有的泛化性与可扩展性

来自主题: AI技术研报
10544 点击    2024-07-19 12:31
如何将 LLM 的上下文扩展至百万级?

如何将 LLM 的上下文扩展至百万级?

如何将 LLM 的上下文扩展至百万级?

在2023年初,即便是当时最先进的GPT-3.5,其上下文长度也仅限于2k。然而,时至今日,1M的上下文长度已经成为衡量模型技术先进性的重要标志之一。

来自主题: AI技术研报
5260 点击    2024-07-19 10:14
AI Agent 阶段性总结与创投观察

AI Agent 阶段性总结与创投观察

AI Agent 阶段性总结与创投观察

Agent 是什么

来自主题: AI技术研报
11037 点击    2024-07-18 17:35
OpenAI超级对齐团队再发「绝唱」!首提「证明者-验证者」博弈,训练GPT说人话

OpenAI超级对齐团队再发「绝唱」!首提「证明者-验证者」博弈,训练GPT说人话

OpenAI超级对齐团队再发「绝唱」!首提「证明者-验证者」博弈,训练GPT说人话

当我们不停在CoT等领域大下苦功、试图提升LLM推理准确性的同时,OpenAI的对齐团队从另一个角度发现了华点——除了准确性,生成答案的清晰度、可读性和可验证性也同样重要。

来自主题: AI技术研报
5071 点击    2024-07-18 16:19
无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100

无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100

无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100

自回归解码已经成为了大语言模型(LLMs)的事实标准,大语言模型每次前向计算需要访问它全部的参数,但只能得到一个token,导致其生成昂贵且缓慢。

来自主题: AI技术研报
9816 点击    2024-07-17 20:33
快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移

快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移

快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移

近日,快手可灵大模型团队开源了名为LivePortrait的可控人像视频生成框架,该框架能够准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上,生成极具表现力的视频结果。

来自主题: AI技术研报
11538 点击    2024-07-17 20:22
原作亲自下场!Mistral首款开源7B Mamba模型「埃及艳后」效果惊艳

原作亲自下场!Mistral首款开源7B Mamba模型「埃及艳后」效果惊艳

原作亲自下场!Mistral首款开源7B Mamba模型「埃及艳后」效果惊艳

最近,7B小模型又成为了AI巨头们竞相追赶的潮流。继谷歌的Gemma2 7B后,Mistral今天又发布了两个7B模型,分别是针对STEM学科的Mathstral,以及使用Mamaba架构的代码模型Codestral Mamba。

来自主题: AI技术研报
9327 点击    2024-07-17 19:53
大模型“玩”Excel更6了,微软搞的

大模型“玩”Excel更6了,微软搞的

大模型“玩”Excel更6了,微软搞的

大模型理解、推理Excel,现在变得更加精准了。

来自主题: AI技术研报
8551 点击    2024-07-16 20:09
VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

视觉大语言模型在最基础的视觉任务上集体「翻车」,即便是简单的图形识别都能难倒一片,或许这些最先进的VLM还没有发展出真正的视觉能力?

来自主题: AI技术研报
9042 点击    2024-07-16 19:43