
联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。
在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。
最近往返中美频繁发声的黄仁勋,是把英伟达打造成 4 万亿帝国的「AI教父」,今天 The Information 曝光了一个老黄布局多年的秘密。
据知情人士透露,风投公司Andreessen Horowitz 已同意牵头向材料科学人工智能初创公司 Periodic Labs 投资 2 亿美元。
北京大学提出了ReMoMask:一种全新的基于检索增强生成的Text-to-Motion框架。它是一个集成三项关键创新的统一框架:(1)基于动量的双向文本-动作模型,通过动量队列将负样本的尺度与批次大小解耦,显著提高了跨模态检索精度;(2)语义时空注意力机制,在部件级融合过程中强制执行生物力学约束,消除异步伪影;(3)RAG-无分类器引导结合轻微的无条件生成以增强泛化能力。
随着 Gemini-Diffusion,Seed-Diffusion 等扩散大语言模型(DLLM)的发布,这一领域成为了工业界和学术界的热门方向。但是,当前 DLLM 存在着在推理时必须采用预设固定长度的限制,对于不同任务都需要专门调整才能达到最优效果。
智东西8月6日消息,据外媒The Information报道,知情人士透露,AI视频初创企业Runway正与投资者洽谈约5亿美元(约合人民币36亿元)的融资,投前估值不低于50亿美元(约合人民币359亿元),较上一轮融资时的估值30亿美元(约合人民币215亿元)高出67%。
对大公司来说,钱不值钱,最值钱的是时间。本期播客,我们邀请在硅谷专注 AI 企业级应用、医疗和工业自动化早期投资的风险投资机构 Fusion Fund 创始合伙人张璐,梳理上半年硅谷的科技大事件,以及从 Windsurf 收购案入手,分析这件事折射出了硅谷的初创生态在发生的变化,以及从 Meta 到 Google、再到苹果、亚马逊、微软,上半年的一些关键动作意味着哪些战略选择。
融资10亿美元,要在开源上挑战Deepseek! 前谷歌DeepMind成员、AlphaGo开发者创立Reflection AI,致力于开发开源大语言模型。
SkinVision 是一家于 2011 年在荷兰阿姆斯特丹成立的数字健康公司,致力于通过人工智能(AI)驱动的移动解决方案,实现皮肤癌的早期检测与个性化皮肤健康管理。
近年来,大语言模型(LLM)在语言理解、生成和泛化方面取得了突破性进展,并广泛应用于各种文本任务。随着研究的深入,人们开始关注将 LLM 的能力扩展至非文本模态,例如图像、音频、视频、图结构、推荐系统等。