AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

当 AI 放下海德格尔的锤子时,意味着机器人已经能够熟练使用工具,工具会“隐退”成为本体的延伸,而不再是需要刻意思考的对象。

来自主题: AI技术研报
8275 点击    2025-06-18 15:35
AI操作有了“紧急刹车”!通义&自动化所AI决策诊断模型,GUI智能体纠错正确率SOTA

AI操作有了“紧急刹车”!通义&自动化所AI决策诊断模型,GUI智能体纠错正确率SOTA

AI操作有了“紧急刹车”!通义&自动化所AI决策诊断模型,GUI智能体纠错正确率SOTA

GUI智能体总是出错, 甚至是不可逆的错误。 即使是像GPT-4o这样的顶级多模态大模型,也会因为缺乏常识而在执行GUI任务时犯错。在它即将执行错误决策时,需要有人提醒它出错了。

来自主题: AI资讯
8148 点击    2025-06-17 16:59
沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o

沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o

沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o

NVIDIA等研究团队提出了一种革命性的AI训练范式——视觉游戏学习ViGaL。通过让7B参数的多模态模型玩贪吃蛇和3D旋转等街机游戏,AI不仅掌握了游戏技巧,还培养出强大的跨领域推理能力,在数学、几何等复杂任务上击败GPT-4o等顶级模型。

来自主题: AI技术研报
5226 点击    2025-06-17 16:53
松下发布多模态大模型OmniFlow,文本、图像、音频随意切换

松下发布多模态大模型OmniFlow,文本、图像、音频随意切换

松下发布多模态大模型OmniFlow,文本、图像、音频随意切换

随着大模型的不断发展,多模态数据处理成为了新的热点领域。多模态生成任务主要通过整合多种类型的数据,如文本、图像、音频等,实现不同模态之间的相互转换与生成。

来自主题: AI资讯
6684 点击    2025-06-17 11:39
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

思维链(Chain of Thought, CoT)推理方法已被证明能够显著提升大语言模型(LLMs)在复杂任务中的表现。而在多模态大语言模型(MLLMs)中,CoT 同样展现出了巨大潜力。

来自主题: AI技术研报
8129 点击    2025-06-17 10:21
CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

AI 决策的可靠性与安全性是其实际部署的核心挑战。当前智能体广泛依赖复杂的机器学习模型进行决策,但由于模型缺乏透明性,其决策过程往往难以被理解与验证,尤其在关键场景中,错误决策可能带来严重后果。因此,提升模型的可解释性成为迫切需求。

来自主题: AI技术研报
7599 点击    2025-06-16 16:31
如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架

如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架

如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架

在金融科技智能化转型进程中,大语言模型以及多模态大模型(LVLM)正成为核心技术驱动力。尽管 LVLM 展现出卓越的跨模态认知能力

来自主题: AI技术研报
7186 点击    2025-06-16 15:27
CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

AI 决策的可靠性与安全性是其实际部署的核心挑战。当前智能体广泛依赖复杂的机器学习模型进行决策,但由于模型缺乏透明性,其决策过程往往难以被理解与验证,尤其在关键场景中,错误决策可能带来严重后果。因此,提升模型的可解释性成为迫切需求。

来自主题: AI技术研报
5814 点击    2025-06-16 09:27
独家|阶跃星辰Tech Fellow段楠离职,任京东探索研究院视觉与多模态实验室负责人

独家|阶跃星辰Tech Fellow段楠离职,任京东探索研究院视觉与多模态实验室负责人

独家|阶跃星辰Tech Fellow段楠离职,任京东探索研究院视觉与多模态实验室负责人

「市象」获悉,段楠已在其GitHub主页悄然更新履历:现任京东探索研究院视觉与多模态实验室负责人,带领研究团队研发视觉和多模态基础模型。此前,他曾任阶跃星辰Technical Fellow(2024-2025)和微软亚洲研究院自然语言计算团队资深首席研究员和研究经理(2012-2024)。

来自主题: AI资讯
5939 点击    2025-06-12 19:04
AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题

AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题

AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题

豆包大模型1.6惊艳亮相,成为国内首款多模态SOTA模型,256k对话窗口,深度思考最长上下文。它不仅能看会想,还能动手操作GUI,国内最有潜力考清北。

来自主题: AI技术研报
6155 点击    2025-06-12 17:04