AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

指代分割 (Referring Image Segmentation,RIS) 是一项极具挑战性的多模态任务,要求算法能够同时理解精细的人类语言和视觉图像信息,并将图像中句子所指代的物体进行像素级别的分割。

来自主题: AI技术研报
6964 点击    2024-04-26 17:24
姚前:行业大模型语料库建设与治理

姚前:行业大模型语料库建设与治理

姚前:行业大模型语料库建设与治理

大模型语料是指用于训练和评估大模型的一系列文本、语音或其他模态的数据。语料规模和质量对大模型性能以及应用的深度、广度有着至关重要的影响。

来自主题: AI技术研报
9492 点击    2024-04-26 16:56
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

近期,多模态大模型 (MLLM) 在文本中心的 VQA 领域取得了显著进展,尤其是多个闭源模型,例如:GPT4V 和 Gemini,甚至在某些方面展现了超越人类能力的表现。

来自主题: AI技术研报
10312 点击    2024-04-25 19:32
AI信任危机之后,揭秘预训练如何塑造机器的「可信灵魂」

AI信任危机之后,揭秘预训练如何塑造机器的「可信灵魂」

AI信任危机之后,揭秘预训练如何塑造机器的「可信灵魂」

在人工智能的前沿领域,大语言模型(Large Language Models,LLMs)由于其强大的能力正吸引着全球研究者的目光。在 LLMs 的研发流程中,预训练阶段占据着举足轻重的地位,它不仅消耗了大量的计算资源,还蕴含着许多尚未揭示的秘密。

来自主题: AI技术研报
8167 点击    2024-04-25 17:22
苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相

苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相

苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相

要说 ChatGPT 拉开了大模型竞赛的序幕,那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中,苹果似乎掀起的水花不是很大。

来自主题: AI技术研报
10318 点击    2024-04-25 17:17
加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了

加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了

加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了

最近,扩散模型(Diffusion Model)在图像生成领域取得了显著的进展,为图像生成和视频生成任务带来了前所未有的发展机遇。尽管取得了令人印象深刻的结果,扩散模型在推理过程中天然存在的多步数迭代去噪特性导致了较高的计算成本。

来自主题: AI技术研报
8259 点击    2024-04-25 17:13
一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕

一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕

一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕

在人物说话的过程中,每一个细微的动作和表情都可以表达情感,都能向观众传达出无声的信息,也是影响生成结果真实性的关键因素。

来自主题: AI技术研报
7350 点击    2024-04-24 17:26
CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

图像融合的目的是将同一场景中不同传感器捕获的多源图像的互补信息整合到单个图像上。这种方式通常被用于提取图片重要信息和提高视觉质量。

来自主题: AI技术研报
5404 点击    2024-04-24 10:00