AI资讯新闻榜单内容搜索-2

ICCV 2025 | 跨越视觉与语言边界，打开人机交互感知的新篇章：北大团队提出INP-CC模型重塑开放词汇HOI检测

目前的 HOI 检测方法普遍依赖视觉语言模型（VLM），但受限于图像编码器的表现，难以有效捕捉细粒度的区域级交互信息。本文介绍了一种全新的开集人类-物体交互（HOI）检测方法——交互感知提示与概念校准（INP-CC）。

来自主题: AI技术研报

7695 点击 2025-08-20 11:05

刚刚DeepSeek发布3.1版本，实测有进步，在编程等个别场景可硬刚GPT-5

没等到Deepseek R2，DeepSeek悄悄更新了V 3.1。官方群放出的消息就提了一点，上下文长度拓展至128K。128K也是GPT-4o这一代模型的处理Token的长度。因此一开始，鲸哥以为从V3升级到V 3.1，以为是不大的升级，鲸哥体验下来还有惊喜。

来自主题: AI资讯

9963 点击 2025-08-20 03:37

开源版Genie 3世界模型来了：实时+长时间交互，单卡可跑，国内公司出品

国产开源版 Genie 3 问世，昆仑万维用 1.8B 模型跑出了神级效果。如果你上传一个神庙逃亡游戏的截图，就可以在这个世界模型里面开一局，AI 脑补出来的画面会无限地向前延伸。

来自主题: AI资讯

10055 点击 2025-08-19 21:47

凌晨战神Qwen又搞事情！新模型让图像编辑“哪里不对改哪里”

瞧，上面这套“哪里不对改哪里”的操作，就来自“凌晨战神”Qwen团队最新发布的——Qwen-Image-Edit。作为Qwen-Image20B的图像编辑版，Qwen-Image-Edit除了能做上面这种精准的文字修改，还能够新增、消除、重绘、修改元素，而且还支持IP编辑、视角切换、风格迁移等生成式玩法。

来自主题: AI资讯

8921 点击 2025-08-19 21:32