AI资讯新闻榜单内容搜索-GE

Google 年度最强 AI 偷跑！一个电风扇动画引发疯传，Gemini 3要给GPT-5.1上强度了

前几天 nano banana 2 的泄漏版本，正在网上被疯狂转载，奥特曼眼看着流量不能被 Google 再抢了去，一点预告都没有，直接就发布了 GPT-5.1。

来自主题: AI资讯

11441 点击 2025-11-17 16:37

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

长期以来，多模态代码生成（Multimodal Code Generation）的训练严重依赖于特定任务的监督微调（SFT）。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功，但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力，阻碍了通用视觉代码智能（Generalized VIsioN Code Intelligence）的发展。

来自主题: AI技术研报

10103 点击 2025-11-17 14:32

LLM为什么能替你操作电脑？4个关键技术让AI拥有"操作系统级"能力｜Agent和工作流的区别就在这

如何构建一个真正意义上的“自主代理”（Agent），而不是一个“带LLM的高级工作流”？让钢铁侠中的“贾维斯”（J.A.R.V.I.S.）真正来到现实，不仅能对话，还能调动资源、控制机械、在复杂战局中自主执行多步任务。

来自主题: AI技术研报

8570 点击 2025-11-17 10:19

NeurIPS 2025 Spotlight | NYU提出QSVD，仅数学压缩让模型更轻、更快、更稳

在多模态智能浪潮中，视觉语言模型（Vision-Language Models, VLM）已成为连接视觉理解与语言生成的核心引擎。从图像描述、视觉问答到 AI 教育和交互系统，它们让机器能够「看懂世界、说人话」。

来自主题: AI技术研报

10372 点击 2025-11-17 09:53

AAAI 2026｜教会视频扩散模型「理解科学现象」：从初始帧生成整个物理演化

近年来，Stable Diffusion、CogVideoX 等视频生成模型在自然场景中表现惊艳，但面对科学现象 —— 如流体模拟或气象过程 —— 却常常 “乱画”：如下视频所示，生成的流体很容易产生违背物理直觉的现象，比如气旋逆向旋转或整体平移等等。

来自主题: AI技术研报

12040 点击 2025-11-17 09:22

年度最强AI压轴！谷歌Gemini 3.0下周决战OpenAI，前端要下岗了

谷歌这次真要甩王炸了！CEO劈柴两个神秘表情，或暗示Gemini 3.0下周登场。一句话秒生OS、UI网页，前端工程师看完集体沉默。三年追赶，成败就在此一举。

来自主题: AI资讯

9349 点击 2025-11-16 21:16

10人团队千万融资，这个原生AI产品要做“人人可用的数据Agent”丨对话ChatExcel

数据处理显然就是打工人最核心的痛点之一，哪个职场“牛马”没有被工作中几百到上万条繁杂的Excel数据为难过呢？过程中不仅要从多种数据源粘贴数据，还要处理图片、文字等非结构化内容……

来自主题: AI资讯

8645 点击 2025-11-16 11:31

⽆需任何监督信号！自博弈机制让深度搜索Agent实现自我进化

来⾃阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究者提出了⼀种新的解决⽅案：搜索自博弈 Search Self-play（SSP）⸺⼀种⾯向深度搜索 Agent 的⾃我博弈训练范式。其核⼼思路是：让⼀个模型同时扮演两个⻆⾊⸺「出题者」和「解题者」，它们在对抗训练中共同进化，使训练难度随着模型能⼒动态提升，最终形成⼀个⽆需⼈⼯标注的动态博弈⾃我进化过程。

来自主题: AI技术研报

7332 点击 2025-11-16 10:36

原神Agent，字节出品Lumine

糟糕！现在Agent也会这招了：原神，启动！咳咳，这其实是字节最新手搓出来的原神Agent——Lumine。不仅在《原神》里玩得很6，跑图开荒以及动辄几个小时的长主线任务，Lumine都能自己搞定，而且水平还不菜。

来自主题: AI资讯

8853 点击 2025-11-15 17:53

这可能是今年最能打的 ToC Agent 产品。

昨天测试了一款很拉跨的 AIGC 类产品，再也不用了。我不清楚，为什么有些生成类的产品还在可劲强调生成能力，而不花心思做修改和编辑的体验。一个项目做到九成，我们脑子里经常会冒出个错觉，好像离终点只

来自主题: AI资讯

8129 点击 2025-11-15 17:30