AI资讯新闻榜单内容搜索-io

让扩散模型「可解释」不再降质，开启图片编辑新思路

过去三年，扩散模型席卷图像生成领域。以 DiT (Diffusion Transformer) 为代表的新一代架构不断刷新图像质量的极限，让模型愈发接近真实世界的视觉规律。

来自主题: AI技术研报

7422 点击 2025-12-16 16:27

成立仅2月，这家AI初创公司种子轮融资33亿，贝索斯也出手了

「奔向AGI」栏目聚焦AI大模型、AI agent、AI应用、芯片、机器人等前沿、热门的AI技术和商业创新。作者丨冯汝梅编辑丨关雎人工智能赛道又一个惊人融资事件诞生。 2025年12月8日，由前

来自主题: AI资讯

9191 点击 2025-12-16 11:06

会议软件Zoom也来搞AI了，称在AI最难考试上“击败”了Gemini 3

最近，视频会议软件公司 Zoom 发布了一条出人意料的消息：他们宣称在“人类最后的考试”（Humanity s Last Exam，简称 HLE）这个号称当前 AI 领域最具挑战性的基准测试上，取得了 48.1％的成绩，比此前由 Google Gemini 3 Pro（带工具）保持的 45.8％高出 2.3 个百分点。

来自主题: AI资讯

7522 点击 2025-12-15 17:26

Minion Skills: Claude Skills的开源实现

Claude最近推出了一个令人兴奋的特性——Skills系统。它让AI Agent能够动态加载专业能力，按需”学习”处理PDF、Excel、PPT等专业文档的技能。作为一个开源爱好者，我立刻意识到这个设计的价值，并在Minion框架中实现了完整的开源版本。本文将介绍Skills的设计理念，以及我的开源实现细节。

来自主题: AI资讯

9689 点击 2025-12-15 17:23

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

谷歌发布Gemini 2.5 Flash原生音频模型，不仅能保留语调进行实时语音翻译，更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。

来自主题: AI资讯

9368 点击 2025-12-15 11:36

NeurIPS 2025 | 告别全量扫描！浙大提出COIDO：破解多模态数据选择「高耗」难题

在深入技术细节之前，我们先用一张漫画来直观理解 COIDO (Coupled Importance-Diversity Optimization) 解决的核心问题与方案：正如钟离在漫画中所言，面对海量视觉指令数据的选择任务，传统方法需要遍历全部数据才能进行筛选造成大量「磨损」（高昂计算成本）。同时在面对数据重要性和多样性问题时，传统方法往往顾此失彼。

来自主题: AI技术研报

6793 点击 2025-12-14 10:46

港大开源ViMax火了，实现AI自编自导自演

想象一下，只需要一句话描述，AI 就能为你拍出一部完整的短剧？为了让这个想法变成现实，香港大学黄超教授团队开源了 ViMax 框架，并在 GitHub 获得 1.4k + 星标，专注于 Agentic Video Generation 的前沿探索。通过多智能体协作，ViMax 实现了真正的 "自编自导自演"—— 从创意构思到成片输出的完整自动化，把传统影视制作的每个环节都搬进了 AI 世界。

来自主题: AI技术研报

8525 点击 2025-12-13 11:06