AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
前谷歌科学家离职创业1年,自述训练LLM卡在算力上!买卡就像中彩票,Karpathy转赞

前谷歌科学家离职创业1年,自述训练LLM卡在算力上!买卡就像中彩票,Karpathy转赞

前谷歌科学家离职创业1年,自述训练LLM卡在算力上!买卡就像中彩票,Karpathy转赞

一家大模型初创公司从创立到训练出大模型,要克服怎样的难题?前谷歌科学家离职后创业一年,发文自述算力是训练大模型的难点。

来自主题: AI资讯
7720 点击    2024-03-10 15:56
扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹

扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹

扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹

近期的研究表明,采用扩散模型的规划模块能够同时生成长序列的轨迹规划,这更加符合人类的决策模式。此外,扩散模型在策略表征和数据合成方面也能为现有的决策智能算法提供更优的选择。

来自主题: AI技术研报
6779 点击    2024-03-09 15:05
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

3 月 6 日,田渊栋又一项研究出炉,这次,他们主攻 LLM 内存效率。除了田渊栋本人,还有来自加州理工学院、德克萨斯大学奥斯汀分校以及 CMU 的研究者。

来自主题: AI技术研报
11177 点击    2024-03-08 15:07
「AI透视眼」,三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

「AI透视眼」,三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

「AI透视眼」,三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

牛津大学 VGG 实验室 Andrew Zisserman 团队最新工作系统性解决了任意物体的遮挡补全问题,并且为这一问题提出了一个新的更加精确的评估数据集。该工作受到了 MPI 大佬 Michael Black、CVPR 官方账号、南加州大学计算机系官方账号等在 X 平台的点赞。

来自主题: AI技术研报
7570 点击    2024-03-08 15:04
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA

全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA

全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA

半年多来,Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功(训练稳定、容易做 scaling)。

来自主题: AI技术研报
4938 点击    2024-03-07 14:01
ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP

ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP

ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP

模型量化是模型压缩与加速中的一项关键技术,其将模型权重与激活值量化至低 bit,以允许模型占用更少的内存开销并加快推理速度。对于具有海量参数的大语言模型而言,模型量化显得更加重要。

来自主题: AI技术研报
9319 点击    2024-03-07 13:53
Midjourney封禁Stability AI:恶意爬取数据,致服务器瘫痪24小时

Midjourney封禁Stability AI:恶意爬取数据,致服务器瘫痪24小时

Midjourney封禁Stability AI:恶意爬取数据,致服务器瘫痪24小时

虽然 AI 生图领域,看似百花齐放,但论资排辈,Midjourney、Stability AI 还是很受用户欢迎的。就算是竞争对手,Midjourney 也不至于禁止 Stability AI 员工使用其软件吧。

来自主题: AI资讯
5174 点击    2024-03-07 13:42
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

在 2024 世界经济论坛的一次会谈中,图灵奖得主 Yann LeCun 提出用来处理视频的模型应该学会在抽象的表征空间中进行预测,而不是具体的像素空间 [1]。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征,

来自主题: AI技术研报
11053 点击    2024-03-05 14:36
RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

去年 12 月,新架构 Mamba 引爆了 AI 圈,向屹立不倒的 Transformer 发起了挑战。如今,谷歌 DeepMind「Hawk 」和「Griffin 」的推出为 AI 圈提供了新的选择。

来自主题: AI技术研报
6282 点击    2024-03-03 18:10