AI资讯新闻榜单内容搜索-多模态

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

近年来大语言模型（LLM）的迅猛发展正推动人工智能迈向多模态融合的新纪元。然而，现有主流多模态大模型（MLLM）依赖复杂的外部视觉模块（如 CLIP 或扩散模型），导致系统臃肿、扩展受限，成为跨模态智能进化的核心瓶颈。

来自主题: AI技术研报

9474 点击 2025-03-04 09:52

AI如何理解物理世界？视频联合嵌入预测架构V-JEPA带来新突破，无需硬编码核心知识，在自监督预训练中展现出对直观物理的理解，超越了基于像素的预测模型和多模态LLM。

来自主题: AI技术研报

10282 点击 2025-03-02 15:47

Phi-4系列模型上新了！56亿参数Phi-4-multimodal集语音、视觉、文本多模态于一体，读图推理性能碾压GPT-4o；另一款38亿参数Phi-4-mini在推理、数学、编程等任务中超越了参数更大的LLM，支持128K token上下文。

来自主题: AI技术研报

6008 点击 2025-02-28 14:11

动辄百亿、千亿参数的大模型正在一路狂奔，但「小而美」的模型也在闪闪发光。

来自主题: AI技术研报

10436 点击 2025-02-27 16:51

Kimi未来还能够翻盘吗？从公司发展路径上来看，并非没有可能。作为曾经对OpenAI技术跟随最快的公司，Kimi在去年做出了Kimi探索版、k0-math等多个跟随OpenAI技术的模型，而杨植麟本人也在采访中，表示大模型的未来不仅在于强化学习，还在于多模态能力。这一点似乎也与OpenAI类似。

来自主题: AI资讯

7318 点击 2025-02-27 09:36

在AI行业新诞生的「多模态交互」赛道上，声网发布的「对话式AI引擎」，让所有文本大模型秒变多模态，具备实时语音对话能力，补齐了大模型「失语」的短板。

来自主题: AI资讯

9674 点击 2025-02-26 14:46

尽管多模态大语言模型（MLLMs）取得了显著的进展，但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域（例如减少幻觉问题），是否与人类偏好对齐可以全面提升MLLM的各种能力仍是一个未知数。

来自主题: AI技术研报

10380 点击 2025-02-26 14:07

OpenAI o1视觉能力还是最强，模型们普遍“过于自信”！

来自主题: AI技术研报

8435 点击 2025-02-23 16:23

回应DeepSeek，阶跃星辰亮出“三件套”：开源，多模态推理，AI Agent。

来自主题: AI资讯

6613 点击 2025-02-22 13:26

嘿，各位开发小伙伴，今天要给大家安利一个全新的开源项目 ——VLM-R1！它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域，这意味着打开了对于多模态领域的想象空间！

来自主题: AI技术研报

6855 点击 2025-02-21 09:54