
单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器
单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器MoCa框架把单向视觉语言模型转化为双向多模态嵌入模型,通过持续预训练和异构对比微调,提升模型性能和泛化能力,在多模态基准测试中表现优异,尤其小规模模型性能突出。
MoCa框架把单向视觉语言模型转化为双向多模态嵌入模型,通过持续预训练和异构对比微调,提升模型性能和泛化能力,在多模态基准测试中表现优异,尤其小规模模型性能突出。
AI 科技评论独家获悉,百川智能技术联合创始人谢剑将离职。其离职原因尚未公开,下一步动向也暂无明确消息。谢剑硕士毕业于武汉大学人工智能方向,2012 年获得硕士学位后加入百度,后在职攻读博士,并获得清华大学计算机科学博士学位。他曾是百度集团内最年轻晋升为主任研发架构师的工程师之一,同时也是集团总技术委员会成员。
最终体验 = 模型 + context (包括提示词、文件、代码库、业务数据,MCP服务等等一切喂给模型的东西),正好Andrej karpathy前几天天也整了个新提法叫Context engineering,这里可以碰瓷一下Andrej哈哈,这篇文章好几天前我发在小红书了
2025上半年AI Agent领域经历模型竞争加剧和范式演进,DeepSeek等新模型打破垄断,推动Tool Use和强化学习突破。Agent从Prompt、Workflow发展为自主决策、环境感知和工具使用的智能体。编程领域验证PMF,落地机会集中于垂直场景和C端创新,但商业壁垒和技术挑战仍待解决。
据媒体报道,OpenAI的浏览器有望在未来数周内上线,集成聊天界面和AI代理功能。若能获得其4亿每周活跃ChatGPT用户的拥护,OpenAI或将对谷歌广告生态、Web数据流和搜索流量产生实质冲击。谷歌Chrome长期作为Alphabet广告业务的支柱,为广告精准投放和流量导向自有搜索引擎提供基础数据。
汪渊 Raymond 已经重新开始创业,而且方向是当红的 AI 应用,公司名叫:Orion Arm,主体注册在新加坡,主做海外市场。Orion Arm 最近刚刚完成一笔 1100 万美元融资,投后估值 1 亿美元。有趣的是,他们做的不是 Agent,不是当前热门的那些领域,而是纯粹的工具Orion Arm 发布了两款 AI 工具:日程管理类的 Toki 和新闻聚合类的 Syft。
这不,英伟达投资的Perplexity就推出了自己的AI浏览器——Comet,号称专为当今互联网打造。这家AI搜索起家的独角兽,又要挑战谷歌另一个垄断领域了。而且不止它盯上了这块蛋糕,据路透社爆料,OpenAI也将在未来几周内发布一款AI浏览器。
还记得今年最大风口AI与情趣用品市场碰撞出的火花吗?如广东中山的成人玩偶制造商金三玩美(WMDoll),凭借一款接入ChatGPT、Llama等大模型的AI硅胶娃娃MetaBox,惊艳了整个市场。
Manus,真的从国内撤了?4个月前一夜蹿红起飞的AI Agent产品Manus,刚被曝出背后公司一举裁掉国内七成团队。事实上,Manus总部已在5月搬到了新加坡,国内员工何去何从?现在答案终于落定,一言以蔽之:大刀阔斧地裁员。
斯克憋了快半年,终于把 Grok 4 端上了台面。这一次,他的口气依旧不小。早在发布会前就放出狠话,声称 Grok 4 要「重写人类知识库」。等到了发布会上,马斯克再次强调 Grok 4 是目前世界上最聪明的 AI。