AI资讯新闻榜单内容搜索-生成模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 生成模型
ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

怎么快速判断一个生成模型好不好? 最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣,能告诉你模型到底强在哪、弱在哪,适不适合你的需求。

来自主题: AI技术研报
5939 点击    2025-07-18 11:02
700万美金ARR背后:95后如何管理天才员工

700万美金ARR背后:95后如何管理天才员工

700万美金ARR背后:95后如何管理天才员工

97年创始人宋亚宸创立3D大模型公司VAST,已完成三轮数亿元融资,估值业界最高。公司50人团队年收入700万美元,Tripo产品生成模型量达3000万个,用户超300万。未用OKR/KPI管理,靠独特文化(如季度调薪、淡化优先级、兴趣包容)激发效率。战略从C端转向服务PGC用户推出Tripo Studio,月收60万美元。

来自主题: AI资讯
6013 点击    2025-07-12 12:27
两张图就能重构3D空间?清华&NTU利用生成模型解锁空间智能新范式

两张图就能重构3D空间?清华&NTU利用生成模型解锁空间智能新范式

两张图就能重构3D空间?清华&NTU利用生成模型解锁空间智能新范式

最少只用2张图,AI就能像人类一样理解3D空间了。ICCV 2025最新中稿的LangScene-X:以全新的生成式框架,仅用稀疏视图(最少只用2张图像)就能构建可泛化的3D语言嵌入场景,对比传统方法如NeRF,通常需要20个视角。

来自主题: AI技术研报
6411 点击    2025-07-09 11:08
智源OmniGen2登场,国产多模态图像生成开源!一周狂揽2000星外网爆火

智源OmniGen2登场,国产多模态图像生成开源!一周狂揽2000星外网爆火

智源OmniGen2登场,国产多模态图像生成开源!一周狂揽2000星外网爆火

智源统一图像生成模型OmniGen2发布后,立刻在AI图像生成领域掀起巨响,多模态技术生态进一步打通。才一周,GitHub星标就已经破了2000,X上的话题浏览数直接破数十万。

来自主题: AI技术研报
5674 点击    2025-07-03 19:04
ICML 2025 Spotlight | 清华朱军组&NVIDIA提出DDO:扩散/自回归模型训练新范式,刷新图像生成SOTA

ICML 2025 Spotlight | 清华朱军组&NVIDIA提出DDO:扩散/自回归模型训练新范式,刷新图像生成SOTA

ICML 2025 Spotlight | 清华朱军组&NVIDIA提出DDO:扩散/自回归模型训练新范式,刷新图像生成SOTA

清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范式 —— 直接判别优化(DDO)。

来自主题: AI技术研报
5999 点击    2025-07-02 10:33
用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化

用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化

用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化

近年来,随着视觉生成模型的发展,视觉生成任务的输入序列长度逐渐增长(高分辨率生成,视频多帧生成,可达到 10K-100K)。

来自主题: AI技术研报
5916 点击    2025-06-30 15:35
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

在解决离线强化学习、图片逆问题等任务中,对生成模型的能量引导(energy guidance)是一种可控的生成方法,它构造灵活,适用于各种任务,且允许无额外训练条件生成模型。同时流匹配(flow matching)框架作为一种生成模型,近期在分子生成、图片生成等领域中已经展现出巨大潜力。

来自主题: AI技术研报
6122 点击    2025-06-28 16:35
人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

近年来,diffusion Transformers已经成为了现代视觉生成模型的主干网络。随着数据量和任务复杂度的进一步增加,diffusion Transformers的规模也在快速增长。然而在模型进一步扩大的过程中,如何调得较好的超参(如学习率)已经成为了一个巨大的问题,阻碍了大规模diffusion Transformers释放其全部的潜能。

来自主题: AI技术研报
6911 点击    2025-06-26 15:52
全在这里了,小白也可以一文读懂的“世界模型”

全在这里了,小白也可以一文读懂的“世界模型”

全在这里了,小白也可以一文读懂的“世界模型”

我们先来回顾一下近期相关事件: 6 月 18 日,Midjourney 发布首个 AI 视频生成模型 V1,标志其从静态图像创作向动态多媒体内容生产转型。V1 支持上传或用其他模型生成图像来生成视频片段,但有无法生成音频、时长限制等不足。Midjourney 透露长期目标是将多种技术融合为"世界模型",使用户能在动态生成的虚拟环境中自由探索。

来自主题: AI资讯
5255 点击    2025-06-26 10:37
LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍

LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍

LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍

最近,来自NUS、UT Austin等机构的研究人员创新性地提出了一种「拖拽式大语言模型」(DnD),它可以基于提示词快速生成模型参数,无需微调就能适应任务。不仅效率最高提升12000倍,而且具备出色的零样本泛化能力。

来自主题: AI技术研报
7404 点击    2025-06-24 14:26