AI资讯新闻榜单内容搜索-大模型

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动

众所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例，其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。

来自主题: AI技术研报

7797 点击 2024-05-12 15:49

大模型回答如何更可靠？MIT研究团队设计出「共识博弈」，将数学家常用的博弈论引入LLM改进中。没想到，LLaMA-7B的表现，击败了LLaMA-65B，甚至与PaLM-540B相媲美。

来自主题: AI技术研报

9007 点击 2024-05-12 15:19

中国AIGC产业峰会上，金山办公副总裁、研发中台事业部总经理姚冬分享了金山办公拥抱AI的思考与实践。

来自主题: AI资讯

8174 点击 2024-05-12 14:42

早在一个多月前，就已经有很多小伙伴拿到了微信读书的 AI 新功能内测，而就在一天前，AI 问书功能正式全量上线。

来自主题: AI资讯

8291 点击 2024-05-12 13:01

昨天刚刚在顶会ICLR作为特邀演讲（Invited Talk）中“国内唯一”的大模型玩家智谱AI，今天又放出了一个好消息

来自主题: AI技术研报

10022 点击 2024-05-12 12:35

在刚刚举行的 ICLR 2024 大会上，智谱AI的大模型技术团队公布了面向激动人心的AGI通用人工智能前景的三大技术趋势，同时预告了GLM的后续升级版本。

来自主题: AI资讯

7158 点击 2024-05-12 11:19

最近在许多美国开发者的口中，一个开源模型经常被提及，它的发音听起来是“困”。乍一听到总让人一头雾水。哪个开发者天天用中文说困啊。

来自主题: AI资讯

7241 点击 2024-05-11 16:33

2023-2024年，以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型（Multimodal LLMs）已经在文本和图像等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。

来自主题: AI技术研报

10135 点击 2024-05-10 23:32

在机器学习社区中，ICLR （国际学习表征会议）是较为「年轻」的学术会议，它由深度学习巨头、图灵奖获得者 Yoshua Bengio 和 Yann LeCun 在 2013 年牵头举办。但 ICLR 很快就获得了研究者的广泛认可，并且在 AI 圈拥有了深度学习会议「无冕之王」的称号。

来自主题: AI技术研报

11064 点击 2024-05-10 23:22

阿里云正式发布通义千问2.5大模型，同时宣布性能全面赶超GPT-4 Turbo。

来自主题: AI技术研报

6895 点击 2024-05-10 23:19