AI资讯新闻榜单内容搜索-模型训练

中移动九天团队MultiPL-MoE：全新Hybrid-MoE架构用于增强通用大模型低资源代码能力

大语言模型（LLM）虽已展现出卓越的代码生成潜力，却依然面临着一道艰巨的挑战：如何在有限的计算资源约束下，同步提升对多种编程语言的理解与生成能力，同时不损害其在主流语言上的性能？

来自主题: AI技术研报

8523 点击 2025-10-30 16:23

杨红霞要走一条和阿里、字节截然不同的模型训练之路。

来自主题: AI资讯

9580 点击 2025-10-30 12:14

读者，您好！今天想跟您聊一个硬核又极具启发性的项目——HGM（Huxley-Gödel Machine）。我刚刚一起花了几个小时，从环境配置的坑，一路“打怪升级”到让它最终跑完，相信您可能已经从别的公众号上看到了这篇文章。

来自主题: AI技术研报

9057 点击 2025-10-30 11:24

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

来自主题: AI技术研报

8068 点击 2025-10-30 10:55

多模态图片检索是计算机视觉和多模态机器学习领域很重要的一个任务。现在大家做多模态图片检索一般会用 CLIP/SigLIP 这种视觉语言大模型，因为他们经过了大规模的预训练，所以 zero-shot 的能力比较强。

来自主题: AI技术研报

7166 点击 2025-10-30 10:42

在灵巧手通用抓取的研究中，由于动作空间维度高、任务具有长程探索特征且涉及多样化物体，传统强化学习（RL）面临探索效率低、奖励函数及训练过程设计复杂等挑战。

来自主题: AI技术研报

6737 点击 2025-10-30 10:26

国内首个利用世界模型生成数据实现真机泛化的端到端VLA具身基础模型GigaBrain-0重磅发布。

来自主题: AI技术研报

6065 点击 2025-10-29 18:14

DeepSeek-OCR这段时间非常火，但官方开源的文件是“按 NVIDIA/CUDA 习惯写的 Linux 版推理脚本+模型权重”，而不是“跨设备跨后端”的通吃实现，因此无法直接在苹果设备上运行，对于Mac用户来说，在许多新模型诞生的第一时间，往往只能望“模”兴叹。

来自主题: AI技术研报

8926 点击 2025-10-29 17:10

AI风起云涌，数据隐私如履薄冰。华南理工大学联手深圳北理莫斯科大学，推出FedMSBA与FedMAR，筑成联邦学习的安全堡垒，守护个人隐私！

来自主题: AI技术研报

6428 点击 2025-10-29 16:51

强化学习是近来 AI 领域最热门的话题之一，新算法也在不断涌现。

来自主题: AI技术研报

7013 点击 2025-10-29 16:37