AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
100万token,一次能分析1小时YouTube视频,「大世界模型」火了

100万token,一次能分析1小时YouTube视频,「大世界模型」火了

100万token,一次能分析1小时YouTube视频,「大世界模型」火了

我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到,前者可以处理的上下文窗口达百万级别,而后者生成的视频能够理解运动中的物理世界,被很多人称为「世界模型」。

来自主题: AI技术研报
6104 点击    2024-02-20 11:24
10M上下文,仅靠提示就掌握一门语言,Google Gemini 1.5被OpenAI抢头条是真冤

10M上下文,仅靠提示就掌握一门语言,Google Gemini 1.5被OpenAI抢头条是真冤

10M上下文,仅靠提示就掌握一门语言,Google Gemini 1.5被OpenAI抢头条是真冤

这两天,几乎整个AI圈的目光都被OpenAI发布Sora模型的新闻吸引了去。其实还有件事也值得关注,那就是Google继上周官宣Gemini 1.0 Ultra 后,火速推出下一代人工智能模型Gemini 1.5。

来自主题: AI资讯
8249 点击    2024-02-18 12:04
谷歌Gemini 1.5深夜爆炸上线,史诗级多模态硬刚GPT-5!最强MoE首破100万极限上下文纪录

谷歌Gemini 1.5深夜爆炸上线,史诗级多模态硬刚GPT-5!最强MoE首破100万极限上下文纪录

谷歌Gemini 1.5深夜爆炸上线,史诗级多模态硬刚GPT-5!最强MoE首破100万极限上下文纪录

刚刚,我们经历了LLM划时代的一夜。谷歌又在深夜发炸弹,Gemini Ultra发布还没几天,Gemini 1.5就来了。卯足劲和OpenAI微软一较高下的谷歌,开始进入了高产模式。

来自主题: AI技术研报
10342 点击    2024-02-17 12:43
文生图新SOTA!Pika北大斯坦福联合推出RPG,多模态助力解决文生图两大难题

文生图新SOTA!Pika北大斯坦福联合推出RPG,多模态助力解决文生图两大难题

文生图新SOTA!Pika北大斯坦福联合推出RPG,多模态助力解决文生图两大难题

近日,北大、斯坦福、以及Pika Labs发布了新的开源文生图框架,利用多模态LLM的能力成功解决文生图两大难题,表现超越SDXL和DALL·E 3

来自主题: AI技术研报
3734 点击    2024-02-17 11:00
3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜

混合专家(MoE)架构已支持多模态大模型,开发者终于不用卷参数量了!北大联合中山大学、腾讯等机构推出的新模型MoE-LLaVA,登上了GitHub热榜。

来自主题: AI技术研报
4057 点击    2024-02-09 13:54
一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

随着多模态大语言模型(Multimodal Large Language Model,MLLM)的快速发展,以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中,这使得借助多模态 agent 实现手机操作助手成为了可能。

来自主题: AI资讯
7279 点击    2024-02-04 13:39
一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

一直以来,让 AI 成为手机操作助手都是一项颇具挑战性的任务。在该场景下,AI 需要根据用户的要求自动操作手机,逐步完成任务。

来自主题: AI技术研报
8126 点击    2024-02-03 12:44