ACM MM 2025 | EventVAD:7B参数免训练,视频异常检测新SOTA
ACM MM 2025 | EventVAD:7B参数免训练,视频异常检测新SOTA现有视频异常检测(Video Anomaly Detection, VAD)方法中,有监督方法依赖大量领域内训练数据,对未见过的异常场景泛化能力薄弱;而无需训练的方法虽借助大语言模型(LLMs)的世界知识实现检测,但存在细粒度视觉时序定位不足、事件理解不连贯、模型参数冗余等问题。
现有视频异常检测(Video Anomaly Detection, VAD)方法中,有监督方法依赖大量领域内训练数据,对未见过的异常场景泛化能力薄弱;而无需训练的方法虽借助大语言模型(LLMs)的世界知识实现检测,但存在细粒度视觉时序定位不足、事件理解不连贯、模型参数冗余等问题。
大模型有苦恼,记性太好,无法忘记旧记忆,也区分不出新记忆!基于工作记忆的认知测试显示,LLM的上下文检索存在局限。在一项人类稳定保持高正确率的简单检索任务中,模型几乎一定会混淆无效信息与正确答案。
据外媒报道,北约近期完成首次由人工智能(AI)主导的防空测试。结果显示,AI系统在预警时效、信息处理和拦截效率等方面的表现,均优于同等条件下的人工操作。分析人士表示,近段时间以来,北约成员国在AI军事化应用领域动作频繁,相关动向值得关注。
OpenAI最新模型曝光了,在2025年国际数学奥林匹克竞赛(IMO)上达到了金牌水平!IMO被公认为全球最顶尖的数学竞赛,每年只有不到8%的参赛者能够获得金牌。而现在,一个AI模型做到了。
基于Qwen2.5架构,采用DeepSeek-R1-0528生成数据,英伟达推出的OpenReasoning-Nemotron模型,以超强推理能力突破数学、科学、代码任务,在多个基准测试中创下新纪录!数学上,更是超越了o3!
理想汽车车载大模型荣获由CCIA汽车网络安全工作委员会颁发的《生成内容安全测评证书》,及人工智能生成合成内容标识服务平台颁发的《生成合成内容标识报告》,成为国内首批通过GB/T 45654、GB 45438-2025双国标认证的车企
OpenAI的神秘模型o3-alpha意外曝光,其强大的代码能力碾压众多AI。该模型疑似在东京AtCoder世界编程大赛2025中夺得亚军,最终不敌人类选手Psyho。
稚晖君之后,王兴兴也来到了资本市场门口。创业九年,宇树科技终于走到IPO门前。这次不再是传闻。
Trae 2.0 即将到来,根据 Trae 的发布说明,这次带来的 TRAE SOLO 功能将极大改变你的编程体验!Trae 团队深信,一个真正强大的编码 AI 需要完全理解你的工作全貌才能发挥最佳效果。正是基于这一理念,他们打造了 SOLO —— 一个智能上下文工程师。
OpenAI推出ChatGPT agent引发国产Agent竞品(如Manus、Genspark)公开对比,声称自身更优。实测退休计划任务显示,ChatGPT输出简陋,仅20分钟完成简易PPT;而Kimi报告详尽并互动提问,Minimax多格式输出,Manus快速设计美观。ChatGPT仅功能整合,非革命性升级,但标志AI从问答向任务执行协作转型。
MiniMax 在 7 月 10 日面向全球举办了 M1 技术研讨会,邀请了来自香港科技大学、滑铁卢大学、Anthropic、Hugging Face、SGLang、vLLM、RL领域的研究者及业界嘉宾,就模型架构创新、RL训练、长上下文应用等领域进行了深入的探讨。
随着基础大模型在通用能力上的边际效益逐渐递减、大模型技术红利向产业端渗透,AI的技术范式也开始从原来的注重“预训练”向注重“后训练”转移。后训练(Post-training),正从过去锦上添花的“调优”环节,演变为决定模型最终价值的“主战场”。
白鲸出海联合点点数据、非凡产研发布第 6 期全球 AI 教育产品榜(包含 App 和 Web 端,前 5 期可参考底部推荐文章)。本期我们延续上一期,将 5 大分类归类为语言学习、数学&综合、学习/教学工具&儿童教育(目前这 2 类产品较少暂归在一起),三大板块进行分析,但具体产品的分类标准与往期一致。
这应该是上线以来案例最少的 Agent 了,OpenAI GPT Agent奥特曼你不给我用,就别怪我用 Manus 跟你硬碰硬了。
尽管多模态大模型在数学、科学等结构化任务中取得了长足进步,但在需要灵活解读视觉信息的通用场景下,其性能提升瓶颈依然显著。
程序员最有价值的技能已经不再是编写代码了,而是精确地向 AI 传达意图。一份完善的规范才是包含完整意图的真正「源代码」。
在 Web 端 AI 产品中,ChatBot 仍然牢牢占据访问量的主导地位,「DeepSeek」、「豆包」与「通义」位列榜单前三,构成头部竞争格局。然而,这一阵营内部也开始显现出明显的分化趋势。
本来还觉得今天OpenAI开发布会,这篇昨晚提前写完的稿子发不了了,要给ChatGPT Agent让路,结果,果然,OpenAI又拉了。。。还是聊聊AI硬件吧。最近花了1500,又买了一个录音这块的AI硬件,TicNote。
只需一段视频,就可以直接生成可用的4D网格动画?!来自KAUST的研究团队提出全新方法V2M4,能够实现从单目视频直接生成高质量、显式的4D网格动画资源。
PhysRig是UIUC与Stability AI联合提出的首个面向角色动画的可微物理绑定框架。通过将刚性骨架嵌入弹性软体体积,并使用Material Point Method(MPM)进行可微分物理模拟,PhysRig能够自然还原皮肤、脂肪、尾巴等柔性结构的变形过程,显著提升角色动画的真实感,解决传统LBS无法克服的体积丢失与变形伪影问题。
你是否也曾担心过,随手发给 AI 助手的一份代码或报告,会让你成为下一个泄密新闻的主角?又或是你在网上发布的一张画作,会被各种绘画 AI 批量模仿并用于商业盈利?
OpenAI通用推理模型在国际奥数竞赛中达到金牌水平,解出5题得分35/42。模型通过新技术实现长时间复杂推理和自然语言证明,非专用系统。标志AI在创造性思考和科学研究的重大突破,为解决千年难题铺路。GPT-5即将发布但暂缺此能力。
世界首个实时AI扩散视频模型炸场,Karpathy亲自站台,颠覆AI视频交互,0延迟+无限时长,每秒24帧不卡顿,MirageLSD首次实现AI直播级生成。
Apple Intelligence 进入新的一章。 近日,苹果发布了 2025 年 Apple Intelligence 基础语言模型技术报告。
病理诊断,是AI改变医疗的关键环节。近年来,癌症诊断需求不断增长,随之而来的是病理科巨大的供给挑战。
「硅谷最贵华人」庞若鸣昔日老将Mark Lee与Tom Gunter加入Meta!扎克伯格亲自挂帅,誓补AI人才与算力短板。苹果深陷人事动荡。AI战局愈演愈烈,硅谷风云再起。
成立仅8个月已成为最新独角兽,估值飙升至18亿美元。 目前已拥有超230万免费活跃用户、18万付费订阅者,付费用户首月留存率甚至已超ChatGPT。
在爆火仅四个月后,Manus AI 突然几乎全面撤出中国市场,不仅清空全部社交账号内容,而且国行版本的 Manus 也疑似暂停推进。
几千人盲投,Kimi K2超越DeepSeek拿下全球开源第一!
我们提出了 PresentAgent,一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有方法大多局限于生成静态幻灯片或文本摘要,而我们的方案突破了这些限制,能够生成高度同步的视觉内容和语音解说,逼真模拟人类风格的演示。