AI资讯新闻榜单内容搜索-多模态

微软Phi-4家族新增两位成员，5.6B多模态单任务超GPT-4o，3.8B小模型媲美千问7B

动辄百亿、千亿参数的大模型正在一路狂奔，但「小而美」的模型也在闪闪发光。

来自主题: AI技术研报

9455 点击 2025-02-27 16:51

杨植麟翻身，还要靠OpenAI

Kimi未来还能够翻盘吗？从公司发展路径上来看，并非没有可能。作为曾经对OpenAI技术跟随最快的公司，Kimi在去年做出了Kimi探索版、k0-math等多个跟随OpenAI技术的模型，而杨植麟本人也在采访中，表示大模型的未来不仅在于强化学习，还在于多模态能力。这一点似乎也与OpenAI类似。

来自主题: AI资讯

6221 点击 2025-02-27 09:36

DeepSeek会说话了！只要2行代码，这家公司让任意大模型秒开口

在AI行业新诞生的「多模态交互」赛道上，声网发布的「对话式AI引擎」，让所有文本大模型秒变多模态，具备实时语音对话能力，补齐了大模型「失语」的短板。

来自主题: AI资讯

8444 点击 2025-02-26 14:46

多模态大模型对齐新范式，10个评估维度全面提升，快手&中科院&南大打破瓶颈

尽管多模态大语言模型（MLLMs）取得了显著的进展，但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域（例如减少幻觉问题），是否与人类偏好对齐可以全面提升MLLM的各种能力仍是一个未知数。

来自主题: AI技术研报

9370 点击 2025-02-26 14:07

多模态大模型事实正确性评估：o1最强，模型普遍过于自信，最擅长现代建筑/工程技术/科学

OpenAI o1视觉能力还是最强，模型们普遍“过于自信”！

来自主题: AI技术研报

7974 点击 2025-02-23 16:23

最低调“六小虎”阶跃星辰开年首秀：Agent落地智能终端，印奇也来了｜最前线

回应DeepSeek，阶跃星辰亮出“三件套”：开源，多模态推理，AI Agent。

来自主题: AI资讯

5532 点击 2025-02-22 13:26

重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

嘿，各位开发小伙伴，今天要给大家安利一个全新的开源项目 ——VLM-R1！它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域，这意味着打开了对于多模态领域的想象空间！

来自主题: AI技术研报

6016 点击 2025-02-21 09:54

阿里加速“抢人”：开放数百个招聘岗位，九成与AI相关

2月19日，界面新闻记者获悉，阿里AI To C业务近期开启大规模人员招聘，开放招聘岗位达到数百个，其中AI技术、产品研发岗位占比达到90%，所招聘人员将重点投入到文本、多模态大模型、AI Agent等前沿技术与应用的相关工作中。

来自主题: AI资讯

4997 点击 2025-02-19 14:51

全球最大开源视频模型，现在也Created in China了，阶跃出品

刚刚，阶跃星辰联合吉利汽车集团，开源了两款多模态大模型！新模型共2款：全球范围内参数量最大的开源视频生成模型Step-Video-T2V行业内首款产品级开源语音交互大模型Step-Audio多模态卷王开始开源多模态模型，其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议，可任意编辑和商业应用。

来自主题: AI资讯

7048 点击 2025-02-18 14:43

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

尽管多模态大模型在通用视觉理解任务中表现出色，但不具备细粒度视觉识别能力，这极大制约了多模态大模型的应用与发展。针对这一问题，北京大学彭宇新教授团队系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力：对象信息提取能力、类别知识储备能力、对象 - 类别对齐能力，发现了「视觉对象与细粒度子类别未对齐」

来自主题: AI资讯

8623 点击 2025-02-17 17:37