
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源如果一个视觉语言模型(VLM)只会“看”,那真的是已经不够看的了。
如果一个视觉语言模型(VLM)只会“看”,那真的是已经不够看的了。
通过单阶段监督微调与强化微调结合,让大模型在训练时能同时利用专家演示和自我探索试错,有效提升大模型推理性能。
过去几年,通用视觉模型(Vision Generalist Model,简称 VGM)曾是计算机视觉领域的研究热点。
6月30日,上海交通大学医学院附属瑞金医院宣布,RuiPath病理大模型的视觉基础模型正式开源。
清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范式 —— 直接判别优化(DDO)。
这两天读到开源的代码 Agent,Cline 团队的一篇博客,《Why Cline Doesn't Index Your Codebase (And Why That's a Good Thing) 》,做了一些整理和探索,来分享一下这篇博客内容。
UCSD等推出Lmgame Bench标准框架,结合多款经典游戏,分模块测评模型的感知、记忆与推理表现。结果显示,不同模型在各游戏中表现迥异,凸显游戏作为AI评估工具的独特价值。
超大规模MoE模型(如DeepSeek),到底该怎么推理才能做到又快又稳。现在,这个问题似乎已经有了标准答案——华为一个新项目,直接把推理超大规模MoE背后的架构、技术和代码,统统给开源了!
AI音效已经进化成这样了吗??
中兴通讯,这家数万人的科技大厂,凭借40年 ICT 技术积累正式进军 AI 赛道。 一家信息通信公司,居然拿到了 AI 推理竞赛的冠军,这事儿有点意思。