AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
利用大模型构建个性化虚拟学生代理:SOE框架的多维度评估研究

利用大模型构建个性化虚拟学生代理:SOE框架的多维度评估研究

利用大模型构建个性化虚拟学生代理:SOE框架的多维度评估研究

来自华东师范大学、南洋理工和中科院等高校的联合研究团队提出了一种新颖的人工智能教育框架“场景-对象-评估”(SOE),旨在利用大型语言模型(LLMs)构建能够模拟人类学生行为和个体差异的虚拟学生代理(LVSA)。

来自主题: AI技术研报
8164 点击    2024-11-01 12:06
大模型训练成本降一半!厦大和vivo联合推出预训练新策略,给LLM降本增效

大模型训练成本降一半!厦大和vivo联合推出预训练新策略,给LLM降本增效

大模型训练成本降一半!厦大和vivo联合推出预训练新策略,给LLM降本增效

近年来,大语言模型(Large Language Models, LLMs)的研究取得了重大进展,并对各个领域产生了深远影响。然而,LLMs的卓越性能来源于海量数据的大规模训练,这导致LLMs的训练成本明显高于传统模型。

来自主题: AI技术研报
4792 点击    2024-11-01 10:15
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE

新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE

新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE

自去年底以来,时序预测领域正在经历重大转型,从传统的「单一数据集训练单一模型」的模式逐步转向「通用预测基础模型」。

来自主题: AI技术研报
4872 点击    2024-10-31 15:11
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放

个性化精品数字人(Personalized Talking Face Generation)强调合成的数字人视频在感官上与真人具有极高的相似性(不管是说话人的外表还是神态)。

来自主题: AI技术研报
5712 点击    2024-10-31 15:09
深度|NVIDIA旗舰GPU对比:H100、A6000、L40S、A100在训练与推理中的应用

深度|NVIDIA旗舰GPU对比:H100、A6000、L40S、A100在训练与推理中的应用

深度|NVIDIA旗舰GPU对比:H100、A6000、L40S、A100在训练与推理中的应用

通过深入分析这些 GPU 的性能指标,我们将探讨它们在模型训练和推理任务中的适用场景,以帮助用户在选择适合的 GPU 时做出明智的决策。同时,我们还会给出一些实际有哪些知名的公司或项目在使用这几款 GPU。

来自主题: AI资讯
9826 点击    2024-10-31 11:55
探索LLM推理全阶段的JSON格式输出限制方法

探索LLM推理全阶段的JSON格式输出限制方法

探索LLM推理全阶段的JSON格式输出限制方法

文章详细讨论了如何确保大型语言模型(LLMs)输出结构化的JSON格式,这对于提高数据处理的自动化程度和系统的互操作性至关重要。

来自主题: AI技术研报
11431 点击    2024-10-31 10:14
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先

超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先

超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先

TimeMixer++是一个创新的时间序列分析模型,通过多尺度和多分辨率的方法在多个任务上超越了现有模型,展示了时间序列分析的新视角,在预测和分类等任务带来了更高的准确性和灵活性。

来自主题: AI技术研报
5023 点击    2024-10-29 14:51
Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus 是 DeepSeek AI 开发的一个先进的多模态理解和生成框架,它通过创新性地解耦视觉编码路径来应对多模态理解和生成任务之间的需求冲突。

来自主题: AI技术研报
8433 点击    2024-10-29 14:46
PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)是一项创新的多模态大型语言模型(MLLM),由商汤科技联合来自香港中文大学、港大和清华大学的研究人员共同开发。它通过统一的框架处理和生成多粒度的视觉表示,巧妙地平衡了视觉生成任务中的多样性与可控性。

来自主题: AI技术研报
5192 点击    2024-10-29 14:32