AI技术研报-这里有最前沿的人工智能技术解读

GPT-4正接管人类数据专家！先验知识让LLM大胆预测，准确率堪比传统方式

终有一天，LLM可以成为人类数据专家，针对不同领域进行数据分析，大大解放AI研究员。

来自主题: AI技术研报

6671 点击 2024-02-24 15:07

可控核聚变新里程碑！AI成功预测等离子体撕裂登Nature，清洁能源「圣杯」更近一步

困扰可控核聚变的一项重大难题，被AI成功攻克了！普林斯顿团队通过训练神经网络，提前300毫秒就预测了核聚变中的等离子不稳定态，因而能够防止等离子体的逃逸。人类离无穷尽的清洁能源，又近了一步。

来自主题: AI技术研报

7653 点击 2024-02-24 14:59

国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

2 月 16 日，OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构，和市面上大部分主流方法（由 2D Stable Diffusion 扩展）并不相同。

来自主题: AI技术研报

5738 点击 2024-02-24 14:54

补齐Transformer规划短板，田渊栋团队的Searchformer火了

最近几年，基于 Transformer 的架构在多种任务上都表现卓越，吸引了世界的瞩目。使用这类架构搭配大量数据，得到的大型语言模型（LLM）等模型可以很好地泛化用于真实世界用例。

来自主题: AI技术研报

7514 点击 2024-02-24 14:51

200万上下文窗口创飞Gemini 1.5！微软来砸谷歌场子了（doge）

谷歌刚刷新大模型上下文窗口长度记录，发布支持100万token的Gemini 1.5，微软就来砸场子了。

来自主题: AI技术研报

6693 点击 2024-02-24 11:58

YOLOv9来了：实时目标检测新SOTA，完胜各种轻量或大型模型！出自v7作者

距离YOLOv8发布仅1年的时间，v9诞生了！

来自主题: AI技术研报

5246 点击 2024-02-24 11:53

目标检测新SOTA：YOLOv9问世，新架构让传统卷积重焕生机

继 2023 年 1 月 YOLOv8 正式发布一年多以后，YOLOv9 终于来了！

来自主题: AI技术研报

7367 点击 2024-02-23 14:42

谷歌VideoPoet负责人蒋路跳槽TikTok！对标Sora，AI视频模型大战在即

谷歌Research Lead，负责VideoPoet项目的蒋路，即将加入TikTok，负责视频生成AI的开发。

来自主题: AI技术研报

7252 点击 2024-02-22 15:44

模型融合、混合专家、更小的LLM，几篇论文看懂2024年LLM发展方向

在过去的 2023 年中，大型语言模型（LLM）在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展，似乎我们即将进入一个可喜的新阶段：在不增大模型规模的前提下让模型变得更好，甚至让模型变得更小。

来自主题: AI技术研报

5675 点击 2024-02-22 15:31

超越AF2？Iambic、英伟达、加州理工学院开发多尺度深度生成模型，进行状态特异性蛋白质-配体复合物结构预测

由蛋白质和小分子配体形成的结合复合物无处不在，对生命至关重要。虽然最近科学家在蛋白质结构预测方面取得了进展，但现有算法无法系统地预测结合配体结构及其对蛋白质折叠的调节作用。

来自主题: AI技术研报

4529 点击 2024-02-22 15:28

爆火Sora背后的技术，一文综述扩散模型的最新发展方向

为了使机器具有人类的想象力，深度生成模型取得了重大进展。这些模型能创造逼真的样本，尤其是扩散模型，在多个领域表现出色。扩散模型解决了其他模型的限制，如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。

来自主题: AI技术研报

9748 点击 2024-02-22 15:25

谷歌最强开源大模型亮相！Gemini技术下放，笔记本就能跑，可商用

谷歌大模型，开源了！一夜之间，Gemma系列正式上线，全面对外开放。

来自主题: AI技术研报

8976 点击 2024-02-22 15:14

单GPU就能压缩模型，性能不变参数少25%！微软提出模型稀疏化新方法

大语言模型之大，成本之高，让模型的稀疏化变得至关重要。

来自主题: AI技术研报

5541 点击 2024-02-21 16:51

芯片专家详解刷屏的Groq芯片：目前并不能替代英伟达

财报发布前两天，英伟达突然冒出来一个劲敌。一家名叫Groq的公司今天在AI圈内刷屏，杀招就一个：快。

来自主题: AI技术研报

6805 点击 2024-02-21 11:40

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

推测解码（Speculative Decoding）是谷歌等机构在 2022 年发现的大模型推理加速方法。它可以在不损失生成效果前提下，获得 3 倍以上的加速比。GPT-4 泄密报告也提到 OpenAI 线上模型推理使用了它。

来自主题: AI技术研报

7603 点击 2024-02-20 17:22

为什么openai可以跑通所有AGI技术栈？

简单说一下我的见解，以公司和技术趋势而不是个人的角度做一些分析，并预测一些OpenAI下一步的进展。

来自主题: AI技术研报

9887 点击 2024-02-20 11:43

100万token，一次能分析1小时YouTube视频，「大世界模型」火了

我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到，前者可以处理的上下文窗口达百万级别，而后者生成的视频能够理解运动中的物理世界，被很多人称为「世界模型」。

来自主题: AI技术研报

6821 点击 2024-02-20 11:24

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多

大模型内卷时代，也不断有人跳出来挑战Transformer的统治地位，RWKV最新发布的Eagle 7B模型登顶了多语言基准测试，同时成本降低了数十倍

来自主题: AI技术研报

5935 点击 2024-02-20 11:12

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

短短几天，「世界模型」雏形相继诞生，AGI真的离我们不远了？Sora之后，LeCun首发AI视频预测架构V-JEPA，能够以人类的理解方式看世界。

来自主题: AI技术研报

7733 点击 2024-02-18 15:24

让视觉语言模型搞空间推理，谷歌又整新活了

视觉语言模型虽然强大，但缺乏空间推理能力，最近 Google 的新论文说它的 SpatialVLM 可以做，看看他们是怎么做的。

来自主题: AI技术研报

8460 点击 2024-02-18 15:10

人类偏好优化算法哪家强？跟着高手一文学懂DPO、IPO和KTO

尽管收集人类对模型生成内容的相对质量的标签，并通过强化学习从人类反馈（RLHF）来微调无监督大语言模型，使其符合这些偏好的方法极大地推动了对话式人工智能的发展。

来自主题: AI技术研报

8038 点击 2024-02-18 12:25

谷歌Gemini 1.5深夜爆炸上线，史诗级多模态硬刚GPT-5！最强MoE首破100万极限上下文纪录

刚刚，我们经历了LLM划时代的一夜。谷歌又在深夜发炸弹，Gemini Ultra发布还没几天，Gemini 1.5就来了。卯足劲和OpenAI微软一较高下的谷歌，开始进入了高产模式。

来自主题: AI技术研报

10763 点击 2024-02-17 12:43

使用GPT-4，学渣比学霸更有优势

如果允许学生用AI“作弊”，他们的成绩分布会发生怎样的变化？

来自主题: AI技术研报

9140 点击 2024-02-17 12:33

下一代Windows系统曝光：基于GPT-4V，Agent跨应用调度，代号UFO

微软首个为Windows而设的智能体（Agent）亮相：基于GPT-4V，一句话就可以在多个应用中无缝切换，完成复杂任务。整个过程无需人为干预，其执行成功率和效率是GPT-4的两倍，GPT-3.5的四倍。

来自主题: AI技术研报

9662 点击 2024-02-17 12:25

RAG还是微调？微软出了一份特定领域大模型应用建设流程指南

检索增强生成（RAG）和微调（Fine-tuning）是提升大语言模型性能的两种常用方法，那么到底哪种方法更好？在建设特定领域的应用时哪种更高效？微软的这篇论文供你选择时进行参考。

来自主题: AI技术研报

5328 点击 2024-02-17 12:09

我们还需要Transformer中的注意力吗？

状态空间模型正在兴起，注意力是否已到尽头？

来自主题: AI技术研报

9609 点击 2024-02-17 12:03

推倒万亿参数大模型内存墙，万字长文：从第一性原理看神经网络量化

为了应对大模型不断复杂的推理和训练，英伟达、AMD、英特尔、谷歌、微软、Meta、Arm、高通、MatX以及Lemurian Labs，纷纷开始研发全新的硬件解决方案。

来自主题: AI技术研报

7792 点击 2024-02-17 11:06

文生图新SOTA！Pika北大斯坦福联合推出RPG，多模态助力解决文生图两大难题

近日，北大、斯坦福、以及Pika Labs发布了新的开源文生图框架，利用多模态LLM的能力成功解决文生图两大难题，表现超越SDXL和DALL·E 3

来自主题: AI技术研报

4339 点击 2024-02-17 11:00

Github2.5k星，Karpathy转赞，「流程工程」让LLM代码能力瞬间翻倍，直接淘汰提示工程

Karpathy力推代码生成任务增强流程，让GPT-4在CodeContests从19%提升到44%，不用微调不用新数据集训练，让大模型代码能力大幅提升。

来自主题: AI技术研报

8617 点击 2024-02-17 10:55

语音生成的「智能涌现」：10万小时数据训练，亚马逊祭出10亿参数BASE TTS

伴随着生成式深度学习模型的飞速发展，自然语言处理（NLP）和计算机视觉（CV）已经经历了根本性的转变，从有监督训练的专门模型，转变为只需有限的明确指令就能完成各种任务的通用模型

来自主题: AI技术研报

4637 点击 2024-02-15 21:45