AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
全解读|智谱 GLM-5V-Turbo 发布,多模态 Coding 基模

全解读|智谱 GLM-5V-Turbo 发布,多模态 Coding 基模

全解读|智谱 GLM-5V-Turbo 发布,多模态 Coding 基模

今天,智谱发布 GLM-5V-Turbo,定位「面向视觉编程的多模态 Coding 基座模型」。一句话概括:在 GLM-5-Turbo 的编程和龙虾能力基座上,加入了原生的视觉理解和推理能力

来自主题: AI资讯
7299 点击    2026-04-02 10:43
ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache,刷新多模态生成模型推理加速新基准

ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache,刷新多模态生成模型推理加速新基准

ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache,刷新多模态生成模型推理加速新基准

FLUX 、Qwen-Image 等多模态生成模型的推理速度一直是工业级多模态模型落地的痛点。传统的特征缓存(Feature Caching)方案在追求高倍率加速时,常因瞬时速度的剧烈波动导致轨迹漂移。

来自主题: AI技术研报
7600 点击    2026-04-01 16:13
多模态不是拼模块,千问新模型证明了最关键的一件事

多模态不是拼模块,千问新模型证明了最关键的一件事

多模态不是拼模块,千问新模型证明了最关键的一件事

林俊旸离职了,但 Qwen 不能停。最近 Qwen3.5-Omni 发布,一个原生全模态大模型,文本、图片、音频、视频的理解与生成,集于一身。 这不是第一个试图「什么都做」的模型。过去两年,多模态是所

来自主题: AI资讯
7004 点击    2026-04-01 15:50
1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

全球首个1毫秒级人体动作捕捉系统FlashCap,通过闪烁LED与事件相机结合,实现1000Hz超高帧率捕捉。无需昂贵设备或强光环境,低成本穿戴服即可精准捕捉极速动作。团队同步开源715万帧的FlashMotion数据集与多模态模型ResPose,显著提升运动分析精度,推动体育、VR与机器人领域迈向高动态智能新阶段。

来自主题: AI技术研报
6207 点击    2026-03-31 14:40
ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文,介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复,而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark,MMDuet2 则通过强化学习训练方法实现了 SOTA 性能,无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

来自主题: AI技术研报
8217 点击    2026-03-30 15:02
智普GLM5.1重磅上线!2000万Tokens免费送,先到先得

智普GLM5.1重磅上线!2000万Tokens免费送,先到先得

智普GLM5.1重磅上线!2000万Tokens免费送,先到先得

国产大模型阵营再添硬核选手,智谱开放平台GLM5.1正式上线,推理、代码、智能体能力拉满,还为新用户准备了2000万Tokens免费体验包,覆盖多模型使用额度,有效期3个月。不管是日常编程开发、智能体搭建,还是多模态内容创作,这个免费额度都能轻松拿捏,新手也能零门槛上手,这波福利可别错过。

来自主题: AI资讯
9196 点击    2026-03-29 00:21
全球首个多模态创意营销 Claw 来了,好创意比以前更值钱了

全球首个多模态创意营销 Claw 来了,好创意比以前更值钱了

全球首个多模态创意营销 Claw 来了,好创意比以前更值钱了

恰好最近,我留意到常用的一个视频生成工具 Vidu,上线了 ViduClaw 「V 龙」——全球首个多模态创意营销 Claw。虽然此前已有不少 AI 厂商推出了自家的「Claw」,但作为视频模型厂商,而且做得这么完整的,Vidu 是我见到的业内头一个。

来自主题: AI资讯
8328 点击    2026-03-28 20:44
清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

过去几年,多模态模型在理解任务上快速演进,图像问答、OCR、视觉推理、跨模态对话等能力不断提升;与此同时,图像生成模型也在视觉质量、指令遵循和细节表达上持续突破。下一步一个自然的问题是:能否用同一个模型,同时做好理解与生成?这正是统一多模态模型(Unified Multimodal Models, UMMs)正在回答的问题。

来自主题: AI技术研报
6864 点击    2026-03-26 14:45
MemoryLake让你养虾省91%词元!AI记忆公司质变科技用1亿个多模态文件验证了!

MemoryLake让你养虾省91%词元!AI记忆公司质变科技用1亿个多模态文件验证了!

MemoryLake让你养虾省91%词元!AI记忆公司质变科技用1亿个多模态文件验证了!

一家企业花了七周时间部署 AI:第 1 周精准回答行业分析问题,团队欢呼;第 3 周反复回答相同的错误结论,因为它“忘了”上周的修正;第 5 周在董事会汇报中引用了已被否定的数据,造成决策偏差;第 7 周项目暂停,“AI 不可信”成为共识。问题不在于 AI 不够聪明,而在于它每次醒来都是一张白纸。

来自主题: AI资讯
7958 点击    2026-03-25 14:18
珀乐互动完成天使轮融资,以AI+IP重塑数字内容生态 | 首发

珀乐互动完成天使轮融资,以AI+IP重塑数字内容生态 | 首发

珀乐互动完成天使轮融资,以AI+IP重塑数字内容生态 | 首发

36氪获悉,以AI为核心的数字内容公司珀乐互动科技(下称“珀乐互动”)已完成天使轮融资,金额为数千万元人民币。本轮投资由星连资本领投、春华创投跟投,资金将重点用于技术研发、团队扩充与IP商业化开发,全面加速公司多模态泛娱乐生态的战略布局。

来自主题: AI资讯
5360 点击    2026-03-25 10:41