AI技术研报-这里有最前沿的人工智能技术解读

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 | ACM MM2024

多模态对比学习（如CLIP）通过从互联网上抓取的数百万个图像-字幕对中学习，在零样本分类方面取得了显著进展。然而，这种依赖带来了隐私风险，因为黑客可能会未经授权地利用图像-文本数据进行模型训练，其中可能包括个人和隐私敏感信息。

来自主题: AI技术研报

7336 点击 2024-08-01 15:32

探索AI Agent的认知架构及记忆的实现机制

Agent的记忆实现和调用是提高Agent智能水平的关键。

来自主题: AI技术研报

9869 点击 2024-08-01 11:57

ICML 2024｜复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

近年来，针对单个物体的 Text-to-3D 方法取得了一系列突破性进展，但是从文本生成可控的、高质量的复杂多物体 3D 场景仍然面临巨大挑战。之前的方法在生成场景的复杂度、几何质量、纹理一致性、多物体交互关系、可控性和编辑性等方面均存在较大缺陷。

来自主题: AI技术研报

10587 点击 2024-07-31 17:34

揭秘！47页文档拆解苹果智能，从架构、数据到训练和优化

在 2024 年全球开发者大会上，苹果重磅推出了 Apple Intelligence，这是一个全新的个性化智能系统，可以提供实用的智能服务，覆盖 iPhone、iPad 和 Mac，并深度集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中。

来自主题: AI技术研报

9779 点击 2024-07-31 17:32

零样本即可时空预测！港大、华南理工等发布时空大模型UrbanGPT | KDD 2024

UrbanGPT是一种创新的时空大型语言模型，它通过结合时空依赖编码器和指令微调技术，展现出在多种城市任务中卓越的泛化能力和预测精度。这项技术突破了传统模型对大量标记数据的依赖，即使在数据稀缺的情况下也能提供准确的预测，为城市管理和规划提供了强大的支持。

来自主题: AI技术研报

10042 点击 2024-07-31 16:37

万字技术干货！LLM工程师必读量化指南，可视化图解揭秘大模型如何压缩

面对LLM逐渐膨胀的参数规模，没有H100的开发者和研究人员们想出了很多弥补方法，「量化」技术就是其中的一种。这篇可视化指南用各种图解，将「量化」的基本概念和分支方法进行了全方位总结。

来自主题: AI技术研报

9794 点击 2024-07-31 16:21

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM「分饰三角」自评自进化

Meta、UC伯克利、NYU共同提出元奖励语言模型，给「超级对齐」指条明路：让AI自己当裁判，自我改进对齐，效果秒杀自我奖励模型。

来自主题: AI技术研报

8959 点击 2024-07-31 16:05

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 | ICML 2024

音视频大语言模型在处理视频内容时，往往未能充分发挥语音的作用。video-SALMONN模型通过三部分创新：音视频编码和时间对齐、多分辨率因果Q-Former、多样性损失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异，更在视听联合任务中展现了卓越的性能，证明了其全面性和准确性。

来自主题: AI技术研报

7007 点击 2024-07-31 15:05

CV又不存在了？Meta「分割一切」2.0正式开源，视频也能分割了

Meta又双叒开源了！继去年初代SAM掀翻CV圈之后，SAM 2也完成了终极进化，不仅能分割图像，最惊艳的是还能分割视频。这下，CV可能就真的不存在了。

来自主题: AI技术研报

6399 点击 2024-07-31 14:42

「越狱」事件频发，如何教会大模型「迷途知返」而不是「将错就错」？

大型语言模型（LLM）展现出了令人印象深刻的智能水平。因此，确保其安全性显得至关重要。已有研究提出了各种策略，以使 LLM 与人类伦理道德对齐。然而，当前的先进模型例如 GPT-4 和 LLaMA3-70b-Instruct 仍然容易受到越狱攻击，并被用于恶意用途。

来自主题: AI技术研报

8864 点击 2024-07-30 16:55

LLaMA3：开源战胜闭源意味着什么？

LLaMA3-405B的模型效果已经赶上目前最好的闭源模型GPT-4o和Claude-3.5，这可能是未来大模型开源与闭源的拐点，这里就LLaMA3的模型结构、训练过程与未来影响等方面说说我的看法。

来自主题: AI技术研报

9160 点击 2024-07-30 12:03

干掉HBM?

Tenstorrent推AI芯片挑战昂贵HBM，追求成本效益。

来自主题: AI技术研报

8934 点击 2024-07-30 10:57

ICML直击丨包揽最佳论文、现场发offer抢人…学术顶会变成了“大厂”顶会

7月27日，与ICLR（国际学习表示会议）、NeurIPS（神经信息处理系统会议）并称三大机器学习顶级会议的ICML（国际机器学习大会），在奥地利维也纳会展中心落下帷幕。

来自主题: AI技术研报

10321 点击 2024-07-29 20:35

关于大模型「越狱」的多种方式，有这些防御手段

随着人工智能（AI）技术的迅猛发展，特别是大语言模型（LLMs）如 GPT-4 和视觉语言模型（VLMs）如 CLIP 和 DALL-E，这些模型在多个技术领域取得了显著的进展。

来自主题: AI技术研报

10614 点击 2024-07-29 20:32

1890美元，就能从头训练一个还不错的12亿参数扩散模型

只用1890美元、3700 万张图像，就能训练一个还不错的扩散模型。

来自主题: AI技术研报

9697 点击 2024-07-29 20:28

英伟达最新技术分享：手把手教你用Llama 3.1合成数据改进模型！附代码

适逢Llama 3.1模型刚刚发布，英伟达就发表了一篇技术博客，手把手教你如何好好利用这个强大的开源模型，为领域模型或RAG系统的微调生成合成数据。

来自主题: AI技术研报

10168 点击 2024-07-29 20:20

1.6万块H100训Llama 3.1，每3小时故障1次！罪魁祸首竟是GPU和HBM3显存

在Meta的Llama 3.1训练过程中，其运行的1.6万个GPU训练集群每3小时就会出现一次故障，意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的。

来自主题: AI技术研报

10271 点击 2024-07-29 20:16

秘密打造「AI陶哲轩」震惊数学圈！谷歌IMO梦之队首曝光，菲尔兹奖得主深度点评

19秒破解几何难题，谷歌AI夺得IMO银牌在业界掀起了巨震。就连菲尔兹奖得主陶哲轩，前IMO美国队负责人罗博深都对此大加赞赏。更有AI大佬高调预测，若谷歌继续加码研究，应该可以造出一个「AI陶哲轩」。

来自主题: AI技术研报

9386 点击 2024-07-29 20:05

扩散模型也能搞定社交信息推荐，港大数据智能实验室提出RecDiff

用扩散模型搞社交信息推荐，怎么解决数据噪声难题？现有的一些自监督学习方法效果还是有限。

来自主题: AI技术研报

8740 点击 2024-07-29 19:58

OpenAI投资，前苹果设计师开发的AI应用，拥有超强记忆力成为最懂你的“人”！｜AI鲜测

前苹果设计师 Jason Yuan 打造的一款 AI 聊天应用——Dot，近期在App store 中上线。

来自主题: AI技术研报

6578 点击 2024-07-28 23:28

FBI-LLM低比特基础大语言模型来了，首个完全从头训练的二值化语言模型

自回归训练方式已经成为了大语言模型（LLMs）训练的标准模式，今天介绍一篇来自阿联酋世界第一所人工智能大学MBZUAI的VILA实验室和CMU计算机系合作的论文，题为《FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation》

来自主题: AI技术研报

6982 点击 2024-07-28 23:25

Llama 对决 GPT：AI 开源拐点已至?｜智者访谈

Meta 发布 Llama 3.1 405B，开放权重大模型的性能表现首次与业内顶级封闭大模型比肩，AI 行业似乎正走向一个关键的分叉点。扎克伯格亲自撰文，坚定表明「开源 AI 即未来」，再次将开源与封闭的争论推向舞台中央。

来自主题: AI技术研报

7544 点击 2024-07-28 23:19

晾衣难题难倒GPT-4，人类狂教知识图破解！华盛顿大学教授：LLM会有具备常识的一天吗

在QuantaMagazine的这篇播客中，主持人采访了华盛顿大学计算机教授Yejin Choi。两人谈到十分有趣的话题，比如AI是否必须获得具身和情感，才能发展出像人类一样的常识？

来自主题: AI技术研报

8758 点击 2024-07-28 22:05

Llama 4训练已开启！Meta科学家最新采访，揭秘Llama 3.1是如何炼成的

最近，Latent Space发布的播客节目中请来了Meta的AI科学家Thomas Scialom。他在节目中揭秘了Llama 3.1的一些研发思路，并透露了后续Llama 4的更新方向。

来自主题: AI技术研报

8830 点击 2024-07-28 22:00

Llama 3.1 405B VS Mistral Large 2，谁是开源之王？｜AI横评

最近两款大型 AI 模型相继发布。

来自主题: AI技术研报

8224 点击 2024-07-27 20:08

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

随着大型语言模型（LLMs）的进步，多模态大型语言模型（MLLMs）迅速发展。它们使用预训练的视觉编码器处理图像，并将图像与文本信息一同作为 Token 嵌入输入至 LLMs，从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶和医疗助手等多种潜在应用领域带来了可能性。

来自主题: AI技术研报

8749 点击 2024-07-27 19:33

万亿token！史上最大多模态数据集诞生

开源多模态大模型或将开始腾飞。

来自主题: AI技术研报

7123 点击 2024-07-27 19:29

贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

用来运行 Llama 3 405B 优势明显。

来自主题: AI技术研报

8401 点击 2024-07-27 19:22

反转了？在一场新较量中，号称替代MLP的KAN只赢一局

KAN 在符号表示中领先，但 MLP 仍是多面手。

来自主题: AI技术研报

6868 点击 2024-07-27 19:13

AI搜索之战再迎微软Bing入局，「千年老二」能否一举翻身？

搜索引擎市场老二微软Bing引进AI搜索功能，集传统搜索结果和AI搜索结果于一体，这次，能撼动老大哥谷歌搜索的江山吗？

来自主题: AI技术研报

6672 点击 2024-07-27 18:54

AI技术研报-这里有最前沿的人工智能技术解读

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 | ACM MM2024

探索AI Agent的认知架构及记忆的实现机制

ICML 2024｜复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

揭秘！47页文档拆解苹果智能，从架构、数据到训练和优化

零样本即可时空预测！港大、华南理工等发布时空大模型UrbanGPT | KDD 2024

万字技术干货！LLM工程师必读量化指南，可视化图解揭秘大模型如何压缩

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM「分饰三角」自评自进化

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 | ICML 2024

CV又不存在了？Meta「分割一切」2.0正式开源，视频也能分割了

「越狱」事件频发，如何教会大模型「迷途知返」而不是「将错就错」？

LLaMA3：开源战胜闭源意味着什么？

干掉HBM?

ICML直击丨包揽最佳论文、现场发offer抢人…学术顶会变成了“大厂”顶会

关于大模型「越狱」的多种方式，有这些防御手段

1890美元，就能从头训练一个还不错的12亿参数扩散模型

英伟达最新技术分享：手把手教你用Llama 3.1合成数据改进模型！附代码

1.6万块H100训Llama 3.1，每3小时故障1次！罪魁祸首竟是GPU和HBM3显存

秘密打造「AI陶哲轩」 震惊数学圈！谷歌IMO梦之队首曝光，菲尔兹奖得主深度点评

扩散模型也能搞定社交信息推荐，港大数据智能实验室提出RecDiff

OpenAI投资，前苹果设计师开发的AI应用，拥有超强记忆力成为最懂你的“人”！｜AI鲜测

FBI-LLM低比特基础大语言模型来了，首个完全从头训练的二值化语言模型

Llama 对决 GPT：AI 开源拐点已至?｜智者访谈

晾衣难题难倒GPT-4，人类狂教知识图破解！华盛顿大学教授：LLM会有具备常识的一天吗

Llama 4训练已开启！Meta科学家最新采访，揭秘Llama 3.1是如何炼成的

Llama 3.1 405B VS Mistral Large 2，谁是开源之王？｜AI横评

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

万亿token！史上最大多模态数据集诞生

贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

反转了？在一场新较量中，号称替代MLP的KAN只赢一局

AI搜索之战再迎微软Bing入局，「千年老二」能否一举翻身？

秘密打造「AI陶哲轩」震惊数学圈！谷歌IMO梦之队首曝光，菲尔兹奖得主深度点评