AI资讯新闻榜单内容搜索-多模态模型

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 多模态模型

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

近年来大语言模型（LLM）的迅猛发展正推动人工智能迈向多模态融合的新纪元。然而，现有主流多模态大模型（MLLM）依赖复杂的外部视觉模块（如 CLIP 或扩散模型），导致系统臃肿、扩展受限，成为跨模态智能进化的核心瓶颈。

来自主题: AI技术研报

10731 点击 2025-03-04 09:52

全球最大开源视频模型，现在也Created in China了，阶跃出品

全球最大开源视频模型，现在也Created in China了，阶跃出品

全球最大开源视频模型，现在也Created in China了，阶跃出品

刚刚，阶跃星辰联合吉利汽车集团，开源了两款多模态大模型！新模型共2款：全球范围内参数量最大的开源视频生成模型Step-Video-T2V行业内首款产品级开源语音交互大模型Step-Audio多模态卷王开始开源多模态模型，其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议，可任意编辑和商业应用。

来自主题: AI资讯

9561 点击 2025-02-18 14:43

Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

就在除夕前的晚上（2025 年 1 月 27 日），Deepseek 发布了多模态模型 Janus-Pro-7B，该模型在图像生成和多模态理解方面都超过了OpenAI的DALL-E 3（虽然也一般般），我相信能文生图功能一定很优秀了，今天搞点特殊的，测试下图像理解能力对专业的医学影像有没有应用的可行性，以下是常见的五种医学影像测试。

来自主题: AI资讯

9577 点击 2025-02-01 19:58

梁文锋就是AI界的黄峥

梁文锋就是AI界的黄峥

梁文锋就是AI界的黄峥

梁文锋带领着DeepSeek，还在继续搅动大模型行业。继用R1模型炸场之后，1月28日凌晨，除夕夜前一晚，DeepSeek又开源了其多模态模型Janus-Pro-7B，宣布在GenEval和DPG-Bench基准测试中击败了DALL-E 3（来自 OpenAI）和Stable Diffusion。

来自主题: AI资讯

9150 点击 2025-01-30 12:40

Kimi硬刚多模态满血版o1，首曝训练细节！强化学习scaling新范式诞生

Kimi硬刚多模态满血版o1，首曝训练细节！强化学习scaling新范式诞生

Kimi硬刚多模态满血版o1，首曝训练细节！强化学习scaling新范式诞生

来了来了，月之暗面首个「满血版o1」来了！这是除OpenAI之外，首次有多模态模型在数学和代码能力上达到了满血版o1的水平。

来自主题: AI资讯

9702 点击 2025-01-21 07:44

半年融资过亿，FEELING AI瞄准生成式3D动态内容交互产品

半年融资过亿，FEELING AI瞄准生成式3D动态内容交互产品

半年融资过亿，FEELING AI瞄准生成式3D动态内容交互产品

以自研的“1+N”多模态模型系统，打造3D动态内容为核心的交互产品。

来自主题: AI资讯

7543 点击 2025-01-17 15:27

MiniMax开源4M超长上下文新模型！性能比肩DeepSeek-v3、GPT-4o

MiniMax开源4M超长上下文新模型！性能比肩DeepSeek-v3、GPT-4o

MiniMax开源4M超长上下文新模型！性能比肩DeepSeek-v3、GPT-4o

开源模型上下文窗口卷到超长，达400万token！刚刚，“大模型六小强”之一MiniMax开源最新模型—— MiniMax-01系列，包含两个模型：基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。

来自主题: AI技术研报

9173 点击 2025-01-15 15:10

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

随着语言大模型的成功，视觉 - 语言多模态大模型 (Vision-Language Multimodal Models, 简写为 VLMs) 发展迅速，但在长上下文场景下表现却不尽如人意，这一问题严重制约了多模态模型在实际应用中的潜力。

来自主题: AI技术研报

9189 点击 2025-01-15 14:23

纯视觉方案，精准操控电脑和手机！港大Aria-UI登顶，超越Claude 3.5

纯视觉方案，精准操控电脑和手机！港大Aria-UI登顶，超越Claude 3.5

纯视觉方案，精准操控电脑和手机！港大Aria-UI登顶，超越Claude 3.5

Aria-UI通过纯视觉理解，实现了GUI指令的精准定位，无需依赖后台数据，简化了部署流程；在AndroidWorld和OSWorld等权威基准测试中表现出色，分别获得第一名和第三名，展示了强大的跨平台自动化能力。

来自主题: AI技术研报

10736 点击 2025-01-09 10:54

多模态模型已落地多领域，OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

多模态模型已落地多领域，OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

多模态模型已落地多领域，OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

在 2024 年的 NeurIPS 会议上，Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点，尤其集中于 Scaling Law 的观点：「现有的预训练方法将会结束」，这不仅是一次技术的自然演进，也可能标志着对当前「大力出奇迹」方法的根本性质疑。

来自主题: AI资讯

8048 点击 2025-01-02 16:31

上一页当前第9页,共17页下一页