
一块4090搞定实时视频生成!Adobe黑科技来了
一块4090搞定实时视频生成!Adobe黑科技来了游戏直播等实时渲染门槛要被击穿了?Adobe 的一项新研究带来新的可能。
游戏直播等实时渲染门槛要被击穿了?Adobe 的一项新研究带来新的可能。
为什么语言模型很成功,视频模型还是那么弱?
给大模型当老师,让它一步步按你的想法做数据分析,有多难?
测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?
1.93bit量化之后的 DeepSeek-R1(0528),编程能力依然能超过Claude 4 Sonnet?
传统的视频编辑工作流,正在被AI彻底重塑。
王劲,香港大学计算机系二年级博士生,导师为罗平老师。研究兴趣包括多模态大模型训练与评测、伪造检测等,有多项工作发表于 ICML、CVPR、ICCV、ECCV 等国际学术会议。
视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。 当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。
大模型≠随机鹦鹉!Nature子刊最新研究证明: 大模型内部存在着类似人类对现实世界概念的理解。
让推理模型针对风险指令生成了安全输出,表象下藏着认知危机: 即使生成合规答案,超60%的案例中模型并未真正理解风险。