AI资讯新闻榜单内容搜索-Vide

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Vide
ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文,介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复,而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark,MMDuet2 则通过强化学习训练方法实现了 SOTA 性能,无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

来自主题: AI技术研报
8226 点击    2026-03-30 15:02
「百万级」视频推理数据集!30+顶尖高校联合发布

「百万级」视频推理数据集!30+顶尖高校联合发布

「百万级」视频推理数据集!30+顶尖高校联合发布

AI视频生成已能「画得像」,但不会「想得对」。VBVR推出百万级视频推理数据集,首次系统评测模型对空间、物理、逻辑和抽象的推理能力,发现顶尖模型通过率仅68%,暴露其缺乏真实认知,推动视频AI从「视觉模仿」迈向「智能推理」。

来自主题: AI技术研报
6223 点击    2026-03-26 10:49
AI屠刀下一站“Vibe设计”!谷歌一个产品把合作伙伴Figma干崩了

AI屠刀下一站“Vibe设计”!谷歌一个产品把合作伙伴Figma干崩了

AI屠刀下一站“Vibe设计”!谷歌一个产品把合作伙伴Figma干崩了

谷歌宣布旗下AI设计工具Stitch支持Vibe Design。你都不需要键盘,只需要用嘴就可以vide design出这样婶儿的UI和前端界面:不得不说,谷歌的审美是真的好。Gemini 3生成前端的艺术效果就有口皆碑。

来自主题: AI资讯
8319 点击    2026-03-20 14:43
这年头学不会数理化,只能怪自己懒,谷歌NotebookLM上新,秒出科普视频

这年头学不会数理化,只能怪自己懒,谷歌NotebookLM上新,秒出科普视频

这年头学不会数理化,只能怪自己懒,谷歌NotebookLM上新,秒出科普视频

最近,谷歌 NotebookLM 又出了个好玩好用的小功能:Cinematic Video Overviews(电影级视频概览)。与普通模板不同,这项功能可以根据我们上传的资料,自动生成定制化、沉浸式的视频讲解。

来自主题: AI资讯
7605 点击    2026-03-15 08:48
CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识

CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识

CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识

视觉世界模型 “VideoWorld 2” 由豆包大模型团队与北京交通大学联合提出。不同于 Sora 2 、Veo 3、Wan 2.2 等主流多模态模型,VideoWorld 系列工作在业界首次实现无需依赖语言模型,即可认知世界。

来自主题: AI技术研报
5736 点击    2026-03-09 14:29
为什么顶尖投行都选择了 Rogo 这个金融 Agent?

为什么顶尖投行都选择了 Rogo 这个金融 Agent?

为什么顶尖投行都选择了 Rogo 这个金融 Agent?

全球投行业每年处理超过 3.5 万亿美元的交易,但驱动这台庞大机器运转的,是数以万计每周工作超过百小时、从事着高度重复性劳动的初级分析师。Vertical Agent 开始加速很多专业领域的工作流,比如法律领域的 Harvey、医疗领域的 OpenEvidence,而在离钱最近的金融领域迟迟未能出现一款真正的统治级应用。

来自主题: AI资讯
6871 点击    2026-03-06 10:10