用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能
用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能当前视频检索研究正陷入一个闭环困境:以MSRVTT为代表的窄域基准,长期主导模型在粗粒度文本查询上的优化,导致训练数据有偏、模型能力受限,难以应对真实世界中细粒度、长上下文、多模态组合等复杂检索需求。
当前视频检索研究正陷入一个闭环困境:以MSRVTT为代表的窄域基准,长期主导模型在粗粒度文本查询上的优化,导致训练数据有偏、模型能力受限,难以应对真实世界中细粒度、长上下文、多模态组合等复杂检索需求。
AI医疗不是一门新生意,但确是一个“性感”的赛道。
从影像诊断到手术指导,从多语言问诊到罕见病推理—— 医学AI正在从“专科助手”进化为“全能型选手”。
刚刚,文心5.0正式发布了!全新一代主打原生全模态,最开始就把语言/图像/视频/音频放在同一套自回归统一架构里,做统一的理解与生成训练。所以,最终模型能够做到支持全模态输入(文字/图片/音频/视频)+全模态输出(文字/图片/音频/视频),创意写作、指令遵循、智能体规划方面也更强了。
虎嗅独家获悉,9月后,从北京、广东等地“调”来的超过百位核心工程师,汇聚到了阿里巴巴杭州西溪园区C4楼。此后,C4楼封闭了两层办公楼层,员工需要刷工牌及特殊的安保审批,方能进入。
谷歌DeepMind的IMO金牌模型,完整技术全公开了!
中国最早进行医疗大模型后训练的创新企业之一 ——杭州全诊医学科技有限公司(以下简称“全诊医学”)正式宣布完成1亿元B轮融资:2024年4季度由A股上市公司“创新医疗”(SZ.002173)完成战略轮投资;2025年2季度由中国医药工业百强“好医生集团”完成B轮投资,探针资本担任本轮融资的独家财务顾问。
大家好,我是 Ai 学习的老章 最近 GitHub 发布了 2025 年度开发者趋势报告
就在今天,李飞飞发布了全新的世界模型,开启公测,人人可玩。
skill‑creator 是 Anthropic 在 Claude Skills 体系中提供的“元技能”。它本身是一个可直接在 Claude 对话中调用的 Skill,专门用于 帮助用户快速创建、编辑、打包其他自定义 Skill,从而让 Claude 能够在特定业务场景下拥有专业化的能力。