AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

本研究评估了先进多模态基础模型在 10 个数据集上的多样本上下文学习,揭示了持续的性能提升。批量查询显著降低了每个示例的延迟和推理成本而不牺牲性能。这些发现表明:利用大量演示示例可以快速适应新任务和新领域,而无需传统的微调。

来自主题: AI技术研报
9198 点击    2024-06-19 23:13
ICLR 2024 Oral | 应对随时间变化的分布偏移,西安大略大学等提出学习时序轨迹方法

ICLR 2024 Oral | 应对随时间变化的分布偏移,西安大略大学等提出学习时序轨迹方法

ICLR 2024 Oral | 应对随时间变化的分布偏移,西安大略大学等提出学习时序轨迹方法

在现实世界的机器学习应用中,随时间变化的分布偏移是常见的问题。这种情况被构建为时变域泛化(EDG),目标是通过学习跨领域的潜在演变模式,并利用这些模式,使模型能够在时间变化系统中对未见目标域进行良好的泛化。然而,由于 EDG 数据集中时间戳的数量有限,现有方法在捕获演变动态和避免对稀疏时间戳的过拟合方面遇到了挑战,这限制了它们对新任务的泛化和适应性。

来自主题: AI技术研报
9255 点击    2024-06-19 23:11
Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了

Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了

Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了

OpenAI和谷歌接连两场发布会,把AI视频推理卷到新高度。 但业界还缺少可以全面评估大模型视频推理能力的基准。 终于,多模态大模型视频分析综合评估基准Video-MME,全面评估多模态大模型的综合视频理解能力,填补了这一领域的空白。

来自主题: AI技术研报
7250 点击    2024-06-17 23:41
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。

来自主题: AI技术研报
8451 点击    2024-06-17 19:35
Sora负责人与谢赛宁「隔空对话」,LLM先锋集结中国最硬核AI内行盛会!智源大模型全家桶亮相

Sora负责人与谢赛宁「隔空对话」,LLM先锋集结中国最硬核AI内行盛会!智源大模型全家桶亮相

Sora负责人与谢赛宁「隔空对话」,LLM先锋集结中国最硬核AI内行盛会!智源大模型全家桶亮相

才用了112台A800,就能训出性能达GPT-4 90%的万亿参数大模型?智源的全球首个低碳单体稠密万亿参数大模型Tele-FLM,有望解决全球算力紧缺难题!此外,全新思路的原生多模态「世界模型」Emu 3等都浅亮相了一把。2024的智源大会,依然是星光熠熠,学术巨佬含量超标。

来自主题: AI技术研报
8486 点击    2024-06-15 16:07
Mobile-Agent-v2问世,自动化手机操作能力再上新台阶

Mobile-Agent-v2问世,自动化手机操作能力再上新台阶

Mobile-Agent-v2问世,自动化手机操作能力再上新台阶

今年年初发布的Mobile-Agent凭借强大的自动化手机操作能力,引起了AI界和手机厂商的广泛关注,仅5个月的时间就已在Github上收获了2,000个Star。

来自主题: AI技术研报
8750 点击    2024-06-15 15:58
大模型理解复杂表格,字节&中科大出手了

大模型理解复杂表格,字节&中科大出手了

大模型理解复杂表格,字节&中科大出手了

只要一个大模型,就能解决打工人遇到的表格难题!

来自主题: AI技术研报
8587 点击    2024-06-15 13:28