AI资讯新闻榜单内容搜索-Multi

不靠死记布局也能按图生成，多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

尽管扩散模型在单图像生成上已经日渐成熟，但当任务升级为高度定制化的多实例图像生成（Multi-Instance Image Generation, MIG）时，挑战随之显现：

来自主题: AI技术研报

10092 点击 2025-12-22 09:33

Prompt、Context engineering 又向前进化了，3个关键维度+5个具体杠杆｜谷歌

我们正处在一个AI Agent（智能体）爆发的时代。从简单的ReAct循环到复杂的Multi-Agent Swarm（多智能体蜂群），新的架构层出不穷。但在这些眼花缭乱的名词背后，开发者的工作往往更像是一门“玄学”，我们凭直觉调整提示词，凭经验增加Agent的数量，却很难说清楚为什么某个架构在特定任务上表现更好。

来自主题: AI技术研报

8339 点击 2025-12-16 09:59

Jina-VLM：可在笔记本上跑的多语言视觉小模型

今天我们正式发布 Jina-VLM，这是一款 2.4B 参数量的视觉语言模型（VLM），在同等规模下达到了多语言视觉问答（Multilingual VQA）任务上的 SOTA 基准。Jina-VLM 对硬件需求较低，可在普通消费级显卡或 Macbook 上流畅运行。

来自主题: AI资讯

8263 点击 2025-12-09 14:48

字节前技术负责人创业，联手清华姚班校友，编程智能体世界登顶

来自中国的初创团队词元无限给出了自己的答案。由清华姚班校友带队设计开发的编码智能体 InfCode，在 SWE-Bench Verified 和 Multi-SWE-bench-CPP 两项非常权威的 AI Coding 基准中双双登顶，力压一众编程智能体。

来自主题: AI资讯

9867 点击 2025-12-05 14:51

拆解Gemini 3：Scaling Law的极致执行与“全模态”的威力

毫无疑问，Google最新推出的Gemini 3再次搅动了硅谷的AI格局。在OpenAI与Anthropic激战正酣之时，谷歌凭借其深厚的基建底蕴与全模态（Native Multimodal）路线，如今已从“追赶者”变成了“领跑者”。

来自主题: AI资讯

9613 点击 2025-11-24 15:26

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

长期以来，多模态代码生成（Multimodal Code Generation）的训练严重依赖于特定任务的监督微调（SFT）。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功，但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力，阻碍了通用视觉代码智能（Generalized VIsioN Code Intelligence）的发展。

来自主题: AI技术研报

9337 点击 2025-11-17 14:32