AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
谷歌推出开源医疗大模型 MedGemma

谷歌推出开源医疗大模型 MedGemma

谷歌推出开源医疗大模型 MedGemma

MedGemma是谷歌 “健康人工智能开发者基础”(Health AI Developer Foundations)计划的核心项目。基于 Gemma 3 架构, MedGemma提供多模态和纯文本两种模型变体,旨在降低医疗 AI 开发门槛。

来自主题: AI资讯
8024 点击    2025-05-24 22:46
字节把GPT-4o级图像生成能力开源了!

字节把GPT-4o级图像生成能力开源了!

字节把GPT-4o级图像生成能力开源了!

字节最近真的猛猛开源啊……这一次,他们直接开源了GPT-4o级别的图像生成能力。不止于此,其最新融合的多模态模型BAGEL主打一个“大一统”, 将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。

来自主题: AI技术研报
8036 点击    2025-05-24 17:34
多模态长文本理解测评首发:46款模型无一攻克128K难关

多模态长文本理解测评首发:46款模型无一攻克128K难关

多模态长文本理解测评首发:46款模型无一攻克128K难关

来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了MMLongBench,旨在全面评估多模态模型的长文本理解能力。

来自主题: AI技术研报
7037 点击    2025-05-23 14:52
2030年前必须实现AGI!谷歌祖师爷现场「催更」DeepMind CEO

2030年前必须实现AGI!谷歌祖师爷现场「催更」DeepMind CEO

2030年前必须实现AGI!谷歌祖师爷现场「催更」DeepMind CEO

在谷歌I/O大会后,创始人谢尔盖·布林惊喜现身,与Hassabis深入探讨AI的推理能力、规模与算法、测试时计算及多模态智能体的应用前景。布林强调AI时代是计算科学家不应退休的黄金期,AI影响将远超互联网与手机。

来自主题: AI资讯
4840 点击    2025-05-23 11:50
比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

普林斯顿大学与字节 Seed、北大、清华等研究团队合作提出了 MMaDA(Multimodal Large Diffusion Language Models),作为首个系统性探索扩散架构的多模态基础模型,MMaDA 通过三项核心技术突破,成功实现了文本推理、多模态理解与图像生成的统一建模。

来自主题: AI技术研报
7917 点击    2025-05-22 17:30
独家 | 与微软“代码女王”关于 GitHub、智能编程的一小时对谈

独家 | 与微软“代码女王”关于 GitHub、智能编程的一小时对谈

独家 | 与微软“代码女王”关于 GitHub、智能编程的一小时对谈

5月23-24日AICon上海站,聚焦Agent、多模态、端侧智能、Data for AI 等 50+ 热点话题,涉及 20+ AI 应用案例,兼具实操价值与未来洞见。

来自主题: AI资讯
8972 点击    2025-05-21 14:36
再见Bug!谷歌超级编码智能体Jules上线,免费使用直连GitHub

再见Bug!谷歌超级编码智能体Jules上线,免费使用直连GitHub

再见Bug!谷歌超级编码智能体Jules上线,免费使用直连GitHub

谷歌Jules震撼发布!这款AI编程神器不仅能写代码,还能自动修Bug、生成PR,免费试用每日5次。多模态Gemini 2.5 Pro模型赋予Jules超强智慧,无论多复杂的代码库,它都能精准拿捏。

来自主题: AI资讯
6818 点击    2025-05-21 10:32
智源3款向量模型发布!代码检索及多模态维度刷新多项SOTA

智源3款向量模型发布!代码检索及多模态维度刷新多项SOTA

智源3款向量模型发布!代码检索及多模态维度刷新多项SOTA

检索增强技术在代码及多模态场景中的发挥着重要作用,而向量模型是检索增强体系中的重要组成部分。

来自主题: AI资讯
9008 点击    2025-05-20 15:47