
微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了
微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了OmniParser V2可将屏幕截图转换为结构化元素,帮助LLM理解和操作GUI;在检测小图标和推理速度上显著提升,延迟降低60%,与多种LLM结合后表现优异。
OmniParser V2可将屏幕截图转换为结构化元素,帮助LLM理解和操作GUI;在检测小图标和推理速度上显著提升,延迟降低60%,与多种LLM结合后表现优异。
硅星人独家获悉,AI视频生成领域独角兽企业爱诗科技完成 A5 轮融资,本轮由靖亚资本独家投资,至此爱诗科技 A 轮融资整体规模已超4亿人民币。爱诗科技成立于2023年4月,公司创始人兼CEO王长虎在计算机视觉和AI领域有20年从业经验,他曾任微软亚洲研究院主管研究员,之后担任字节跳动视觉技术负责人期间,参与了抖音和TikTok等产品从0到1的过程。
近年来,大型语言模型(LLMs)在代码相关的任务上展现了惊人的表现,各种代码大模型层出不穷。这些成功的案例表明,在大规模代码数据上进行预训练可以显著提升模型的核心编程能力。
Phi-4系列模型上新了!56亿参数Phi-4-multimodal集语音、视觉、文本多模态于一体,读图推理性能碾压GPT-4o;另一款38亿参数Phi-4-mini在推理、数学、编程等任务中超越了参数更大的LLM,支持128K token上下文。
动辄百亿、千亿参数的大模型正在一路狂奔,但「小而美」的模型也在闪闪发光。
谷歌Gemini 2.0代码助手免费,每月18万次代码补全,支持超大上下文窗口。微软Copilot语音与深度思考功能,同样免费!OpenAI也免费推出了GPT-4o mini高级语音模式。
2月26日消息,据知情人士透露,作为OpenAI的最大支持者,微软最近取消了部分AI数据中心的租约,这可能反映出其对于“过度建设AI算力”的担忧。自那以来,微软股价持续走低,相关公司也受到拖累,科技股被抛售。
本文深入解析一项开创性研究——"Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning",该研究通过基于规则的强化学习技术显著提升了语言模型的推理能力。微软亚洲的研究团队受DeepSeek-R1成功经验的启发,利用结构化的逻辑谜题作为训练场,为模型创建了一个可以系统学习和改进推理技能的环境。
DeepSeek开源第二弹如期而至。这一次,他们把MoE模型内核库开源了,支持FP8专为Hopper GPU设计,低延迟超高速训练推理。
只刷逻辑益智题,竟能让 AI 数学竞赛水平大幅提升?