
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。 当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。
视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。 当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。
上周日,奇绩创坛在北京中关村国际创新中心举办了其 2025 年春季创业营路演日,共有 57 家公司参与了路演。
近日, Mastra AI 创始人 Sam Bhagwat 在 X 上发布了一条推文,称其中提到大约 60~70% 的 YC X25 Agent 公司正在使用 TypeScript 构建他们的 AI Agent。
6月7日,上海财经大学匡时财经教育大模型发布会暨数智新财经论坛在校举办,上海财经大学校长刘元春、上海市教育委员会副主任赵震、上海市杨浦区副区长刘晋元出席并致辞,中国移动上海公司党委书记、董事长、总经理楼向平,蚂蚁集团副总裁、财富保险事业群CTO尹俊,上海库帕思科技有限公司董事长山栋明等企业代表以及学校相关部门负责人参会。发布会由上海财经大学副校长靳玉英主持。
Time-R1通过三阶段强化学习提升模型的时间推理能力,其核心是动态奖励机制,根据任务难度和训练进程调整奖励,引导模型逐步提升性能,最终使3B小模型实现全面时间推理能力,超越671B模型。
6月6日-7日,2025 北京智源大会召开。作为全球具身智能领域最具影响力的学术与产业双栖盛会,本次大会汇聚了顶尖科研机构、技术领军企业和开源社群。
本文第一作者为前阿里巴巴达摩院高级技术专家,现一年级博士研究生满远斌,研究方向为高效多模态大模型推理和生成系统。通信作者为第一作者的导师,UTA 计算机系助理教授尹淼。尹淼博士目前带领 7 人的研究团队,主要研究方向为多模态空间智能系统,致力于通过软件和系统的联合优化设计实现空间人工智能的落地。
2025年,美国就业大地震!与同期相比,全美裁员人数,上涨了47%。「政府效率部」掀起裁员潮之后,科技行业迎来「冰火两重天」。
这两天,很多媒体都在写用AI考高考题的内容。
Hinton梦想的AI医生要来了!斯坦福哈佛实测:o1以78%正确率超人类 新智元 新智元 2025年06月08日 12:45 北京