AI资讯新闻榜单内容搜索-多模态智能体

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态智能体
突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

在家庭服务机器人领域,如何让机器人理解开放环境中的自然语言指令、动态规划行动路径并精准执行操作,一直是学界和工业界的核心挑战。

来自主题: AI技术研报
5773 点击    2025-06-21 16:56
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。

来自主题: AI技术研报
9100 点击    2025-05-27 16:53
2030年前必须实现AGI!谷歌祖师爷现场「催更」DeepMind CEO

2030年前必须实现AGI!谷歌祖师爷现场「催更」DeepMind CEO

2030年前必须实现AGI!谷歌祖师爷现场「催更」DeepMind CEO

在谷歌I/O大会后,创始人谢尔盖·布林惊喜现身,与Hassabis深入探讨AI的推理能力、规模与算法、测试时计算及多模态智能体的应用前景。布林强调AI时代是计算科学家不应退休的黄金期,AI影响将远超互联网与手机。

来自主题: AI资讯
4833 点击    2025-05-23 11:50
一个真正意义上的实时多模态智能体框架,TEN Framework 为构建下一代 AI Agent 而生

一个真正意义上的实时多模态智能体框架,TEN Framework 为构建下一代 AI Agent 而生

一个真正意义上的实时多模态智能体框架,TEN Framework 为构建下一代 AI Agent 而生

有了 TEN(Transformative Extensions Network,变革性扩展网络),开发者们终于不用再「绞尽脑汁」了!TEN 是全球首个真正实现实时多模态智能体的框架,不仅能减少开发痛点,还让你轻松从头开始构建下一代 AI 应用。

来自主题: AI资讯
5692 点击    2024-10-30 15:55
首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

扩展多模态大语言模型(MLLMs)的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化,包括模型架构、数据构建和训练策略,尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。

来自主题: AI技术研报
7356 点击    2024-09-21 18:19
跨平台多模态智能体基准测试来了!但全班第一只考了35.26分

跨平台多模态智能体基准测试来了!但全班第一只考了35.26分

跨平台多模态智能体基准测试来了!但全班第一只考了35.26分

假如你目前正在使用和研究类似CAMEL的多智能体系统,现在已经有了扮演研究者的Agent和负责写论文的Agent,再添加一个事实核查Agent会改善结果吗?

来自主题: AI资讯
3996 点击    2024-08-09 20:44
鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星

鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星

鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星

一不留神,大模型已经学会了操纵手机?最近,腾讯最新多模态智能体框架AppAgent曝光,可以像人类一样操作各种应用。

来自主题: AI资讯
9204 点击    2023-12-26 20:26