Gemini 3 来了:忘掉聊天,一句话生成一个世界 (附与Gemini 团队沟通实录)

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Gemini 3 来了:忘掉聊天,一句话生成一个世界 (附与Gemini 团队沟通实录)
7614点击    2025-11-19 00:16

Gemini 3 来了:忘掉聊天,一句话生成一个世界 (附与Gemini 团队沟通实录)


Gemini3太强了。


11月18日,在所有人的期待中,Google的最新AI模型Gemini3正式发布。这次,一切都回到了Google的节奏。


彻底屠榜


这是一个几乎“屠榜”了所有评测集的模型,而且,请注意,是一个通用模型在细分评测上碾压了诸多“推理模型”、“多模态模型”等细分领域模型。


Gemini 3 来了:忘掉聊天,一句话生成一个世界 (附与Gemini 团队沟通实录)


根据Google的介绍,Gemini 3 是一个有原生多模态、强大推理和Agent能力的模型。在硅星人参加的发布前小范围沟通会上,Gemini的团队强调这个模型的这些能力“不是分开的,是都在一处,都在一个模型里,你可以同时用这些能力”。


今天用来评测模型各种能力的榜单,被Gemini3刷到了离谱的新高。


在多模态能力上,它的理解和推理都达到新高度:


Gemini 3 Pro以81%的MMMU-Pro分数和87.6%的Video-MMMU分数直接刷新了这个多模态推理的记录。


Gemini 3 来了:忘掉聊天,一句话生成一个世界 (附与Gemini 团队沟通实录)


案例介绍:Gemini 3.0的视觉能力融入了推理,能主动解决不一致符号带来的歧义问题,对手写旧表格的 OCR 识别能力甚至优于受过训练的学生。


可能Gemini 3才真正第一次称得上是一个有多模态推理能力的模型。


Google展示了一个很有趣的用法:做一个等离子体流在托卡马克里的可视化展现,同时用一首诗来捕捉核聚变的美。

Gemini 3 来了:忘掉聊天,一句话生成一个世界 (附与Gemini 团队沟通实录)


在推理能力上:


它以突破性的1501分登顶LMArena排行榜。


它还在SimpleQA Verified上取得了72.1%的最新最优成绩,在事实准确性方面显示出巨大进步。这意味着Gemini 3 Pro在科学和数学等广泛主题上解决复杂问题时具有高度的可靠性。


它在"人类最后考试"上也展示了博士级推理能力(在不使用任何工具的情况下得分37.5%),在GPQA Diamond上获得91.9%的高分。它还在数学领域为前沿模型设立了新标准,在MathArena Apex上达到了23.4%的最新最优成绩。

Gemini 3 来了:忘掉聊天,一句话生成一个世界 (附与Gemini 团队沟通实录)


一个Prompt生成复古任天堂模拟器,自带游戏且无需外部素材,一分钟就能完成输出。


这还不算完,在深度推理模式Deep Think下,也就是让模型增加推理的token消耗和用更多时间去处理一些问题时,它在"人类最后考试"里,在不使用工具的情况下得分41.0%,在GPQA Diamond 得分93.8%。而在ARC-AGI上,它还取得了前所未有的45.1%的成绩(使用代码执行)。而已经很强的Gemini 2.5,这一项的得分只有:


4.9%。


在人人喊scaling law撞墙的今天,又搞出了十倍的提升。


而在Agent能力上:


Gemini 3以1487 ELO分的成绩登顶WebDev Arena排行榜。它在Terminal-Bench 2.0上得分54.2%,该测试衡量模型通过终端操作计算机的工具使用能力,并且在SWE-bench Verified(76.2%)上大幅超越2.5 Pro,该基准衡量编码智能体的能力。


另外,Gemini的长上下文和推理的结合也有提升,在一个让AI模拟运营一个自动售货机,来考察它在agent场景的记忆能力的榜单Vending-Bench 2上,它也同样登顶——Gemini 3 Pro在完整的模拟一年的运营中保持了持续的工具使用和决策能力,在不偏离任务的情况下获得更高回报。


Gemini 3 来了:忘掉聊天,一句话生成一个世界 (附与Gemini 团队沟通实录)


Google官方也展示了一个案例,当你要求它:


"根据我邮件中的详细信息,帮我搜索并预订一辆下周旅行用的中型SUV,租金需控制在每天80美元以内。"


它在获得你充分的Google全家桶授权后,真的就完美帮你找到了这样一个服务,并放到你面前,你只需确认即可。


此次Gemini还推出了Agent模式,就是为了这样的场景,当你给他充分授权后,你能让AI把你一切的Google系产品都可以调用起来,完成复杂任务。

Gemini 3 来了:忘掉聊天,一句话生成一个世界 (附与Gemini 团队沟通实录)


看了这些榜单的情况,只剩下SWE-Bench Verified上,Claude Sonnet 4.5领先它1分,其他全部被它占了第一。


有人评论道:OpenAI and Anthropic are so over。

强大到开始全量铺开生成式UI


在Google自己看来,这些全面提升的能力有多强?


它已经足够强大到,让Google认为Gemini这个app必须更改自己的交互形态了。


Google这次给Gemini做了界面大更新。除了改变了页面设计,增加了更方便调用个人数据库的"我的资料"文件夹功能、“彻底改进了购物体验”,可以直接从Google购物图谱带来商品列表、比较表格和价格,该图谱包含超过500亿条商品列表等。最主要的,就是对输入输出的交互做了彻底改变。


什么“ChatGPT”式的一问一答,那是上个时代的做法,现在Gemini要直接给你全模态的可交互结果:


“Gemini 3将突破界面设计的边界。它的推理和多模态能力已经解锁了一项我们称为生成式UI的新功能。


我们介绍一种新颖的生成式UI,它动态创建沉浸式视觉体验和交互式界面——如网页、游戏、工具和应用程序——而且这些界面自动设计并完全定制以响应任何问题、指令或提示。


这些提示可以简单到一个单词,或根据需要长而详细的指令。这些新型界面与AI模型通常渲染内容的静态、预定义界面明显不同。”


说的更直接一点,哪怕一个词,也能给你一个app。


比如,当你询问关于物理学里的三体问题(three body problem),你能得到一个可以交互的模拟界面,让你直接改变变量来观察结果。

Gemini 3 来了:忘掉聊天,一句话生成一个世界 (附与Gemini 团队沟通实录)


而这整个答案更像是一个有文字有图片还有3D可交互网页的独立web app。你甚至可以继续用自然语言开发下去最终把它变成你的一个项目。


目前,Gemini先提供了两个“实验性”功能选项——视觉布局(Visual layout)和动态视图(Dynamic View)。不过Google也表示,为了帮助了解这些实验,用户最初可能只看到其中之一。


而且这个新的交互方式也会在Google的搜索里上线。在搜索的AI mode里提问,也会给出类似一个可交互app的搜索答案。

Gemini 3 来了:忘掉聊天,一句话生成一个世界 (附与Gemini 团队沟通实录)


新的Dynamic View展示,当你只是问了一下梵高,就能得到一个完整可交互的界面供你探索


Google还为此发布了一篇论文。这意思似乎是向所有人喊话:


你们也跟上啊。


Gemini 3 来了:忘掉聊天,一句话生成一个世界 (附与Gemini 团队沟通实录)


此次发布里,还有一个非常值得重视的举动是,这一次Gemini 3在第一时间就部署到了Google搜索上,而且包括这个还被称为实验性的生成式UI,也直接进入搜索的AI mode。


这说明什么?


说明这是一个在Google看来已经训练到十分稳定,可以直接放入主营业务产品,而不用担心有反噬的模型,而且,它还是一个遥遥领先,没有人再能随便狙击的模型,一个完全按Google自己节奏训练和应用的模型。


当如此谨慎的Google都在Gemini的介绍里大量的使用“any”,强调这个模型可以让任何想法变成产品时,你品,你细细品,它对这模型到底有多自信。


One more thing: 彻底让Agent来开发软件的“IDE”平台 Antigravity


而对于Google来说,似乎这些还不够,Google当天还顺带发了一个自己的全新“类IDE”Vibe coding产品,一个让Agent来主导软件开发全流程的平台——Antigravity 。


Google也不免俗的介绍了一句话开发的案例。

Gemini 3 来了:忘掉聊天,一句话生成一个世界 (附与Gemini 团队沟通实录)


你输入一个Prompt,就能得到一个完整的飞行追踪应用。但实现的过程正是不同所在,Antigravity是一个让Agent主导一切的环境,它为多个Agent做好了多个它们可以使用的工具和环境,包括编辑器、浏览器、终端等。


“Google Antigravity将AI助手从开发者工具箱中的工具转变为主动合作伙伴。虽然Google Antigravity的核心是熟悉的AI IDE体验,但其Agent已提升到一个专用界面,并可直接访问编辑器、终端和浏览器。现在,Agent可以在验证自身代码的同时,自主地为您同时规划和执行复杂的端到端软件任务。”


Antigravity也集合了Google各个强大模型:“除了Gemini 3 Pro,Google Antigravity还与我们最新的Gemini 2.5计算机使用模型紧密耦合,用于浏览器控制,以及我们顶级的图像编辑模型Nano Banana(Gemini 2.5图像)。”


而且,Google又给这个产品带来一个疯狂的新能力:它会在和你的配合中,学习你的coding风格, 和你搭建框架的喜好,最终越来越像你...或者说,像一个更全能全栈工程师版的你...


如此高预期的模型,不仅没有让人失望,还带着惊喜一起到来。Google真的是强。


而且,Google势头也正猛。在硅星人参加的小范围提前沟通会上,Google也顺带公布了最新的用户数据:


从上一季度的4.5亿用户,猛增到了这季度6.5亿用户。1300万开发者在用Gemini等Google的模型开发,而本季度的日常调用也同比翻了3倍。


Gemini 3 来了:忘掉聊天,一句话生成一个世界 (附与Gemini 团队沟通实录)


据Gemini团队透露,过去一季度的增长很大程度归功于Nano Banana。


要知道,Nano Banana 2 也在传闻中,排队等待Google的发布......不得不感慨Google的工具箱里,武器实在太多了。


————————————


在此次发布前,我们也有机会与Google Gemini团队交流,以下为沟通实录:


硅星人:能否分享一下在训练这个新模型过程中的一些"Aha moments"?


Gemini团队:这是个有趣的问题,因为我认为在使用这个模型时,有很多时刻你能真正感受到它的推理能力,也能感受到它在多模态能力上的强大。我想指出几个时刻。第一个是我第一次用它进行氛围编码(vibe coding)的时候。令人惊艳的是,它仅凭非常简单的提示就能创造出各种游戏。能够在那个环境中创建3D可视化并玩一个真正的游戏,我觉得太棒了。


实际上,我们的一位工程师一直在用它来创建游戏,这些游戏明天就会在YouTube上发布,因为你可以用这些游戏创造出如此丰富、高保真的体验,我觉得这太棒了。另一个我认为我们不常谈到的"顿悟时刻"是该模型在多语言性能上的强大。


对我来说,特别有趣的一点是,拿一首用古吉拉特语写的诗——我父母从小说的语言——不仅进行翻译,还在此基础上进行创作。你能看到模型的细微差别、创造力和写作风格。我认为那也是另一个让我感叹"这个模型非常聪明,能够将多个要素融合在一起"的时刻。我觉得真正酷的是,当你找到这些时刻,你可以将多模态输入、复杂的推理问题,以及你希望看到的输出格式结合起来。我认为这时你才能真正看到Gemini 3的魔力显现。


问:你会如何描述AntiGravity在当前生态系统中的定位?


Gemini团队:这是个好问题。先提醒一下,我认为AntiGravity会非常令人兴奋。大语言模型和AI确实改变了我们的编码方式,使我们软件工程师能够保持在一个非常高的层次上,借助智能体的帮助处理真正复杂的任务,这样你就可以专注于最终目标,并更快地达成。


所以AntiGravity真正构建在此基础上,构建在模型的能力之上。这是一个新的IDE。市场上也有其他IDE,需要明确的是,我们的模型在多个IDE中以及通过API供开发者继续使用。但AntiGravity将给我们提供另一种与开发者接触的方式,了解他们的用例,了解那些真实世界任务和挑战,然后帮助我们改进模型,通过成为这种以智能体为中心的IDE,为他们提供最佳体验。我认为这将对软件开发带来一点全新的思路。


问:对于消费者来说,你期望Gemini智能体有哪些使用场景?


Gemini团队:我们希望帮助人们应对生活中遇到的更复杂的任务。我个人在几件事上正在使用它:首先,如果我要找演唱会门票之类的,不用再自己去搜索所有不同选项,为带两个孩子的家庭找到合适的套票,我可以让智能体去完成,它会找到合适的配置,并带我到达可以购买的那一步,然后我只需点击一个按钮就能继续完成购买。


另一件我觉得很酷的事是使用智能体模式来帮你分类处理邮件收件箱。我开始每天早上这么做:我醒来有50封邮件,要花很长时间逐一查看并决定怎么处理。我可以使用智能体模式来帮我处理这些,它会告诉我:这里有你需要完成的任务、这里有你需要回复的邮件、这些是可以归档的。这真的为我节省了大量时间,我非常兴奋能让更多人使用到这个功能。


问:随着Pro版本发布,我们能期待Flash和Flashlight很快推出吗?


Gemini团队:是的,我的意思是,我们确实希望构建Gemini 3模型家族。这是我们首要考虑的。


我们感到兴奋的是,看看对Gemini 3 Pro的反馈如何?人们用它做什么?我们在哪里看到机会?然后当我们思考完整的模型家族,思考Flash和Flashlight时,我们首要考虑的是如何构建这个主力模型?合适的成本和延迟应该是怎样的?我们如何思考正确的使用场景?所以我们会继续利用Pro版本的反馈来确保我们能够持续构建。你们很快就会看到我们推出更多产品。


问:Gemini应用最近用户增长显著,团队在此期间做了什么来如此快速地加速采用?


Gemini团队:一个主要因素是我们在Nano Banana上看到的病毒式传播,特别是在泰国、印度尼西亚、印度等国家。显然,这是一个极其成功的产品,很多人都想玩一玩。如果你看到那些手办潮流和许多其他人们真正想参与并分享给朋友的东西。


我们也对我们与GEO的合作以及我们为学生提供的优惠感到非常兴奋。我们看到学生群体中有很多使用热情,他们真的很想用Gemini来帮助完成作业和课堂学习材料。


最后我想说的是,模型质量真的非常重要。我们在2.5 Pro上看到了这一点,我们也很期待看到人们将如何使用Gemini 3。


问:你们是否在用AntiGravity与Cursor等工具竞争?这是企业最大的使用场景之一吗?


Gemini团队:非常感谢。这是个好问题。我不会这样看待它。这次发布中,我们实际上正在与Cursor进行非常紧密的合作。我们在许多不同行业都有许多合作伙伴,并与他们密切合作。对我们来说,在用户所在的地方触达并连接用户非常重要。


AI开发以及AI如何影响不同领域和行业也还处于非常早期的阶段。我认为这对我们来说能够进行实验也很重要。我相信会有其他人也在实验,每个产品本身也会不断发展,对吧?我们将通过我们的模型和许多其他想法继续与Cursor保持紧密合作。除此之外,我想我们对AntiGravity将创造的接触点也感到兴奋。


问:AI行业有声音称迭代速度已放缓,扩展定律已失效。但Google的大模型似乎取得了显著进展。到目前为止,你对大模型的迭代速度以及技术是否还能做到这一点有什么看法?


Gemini团队:这是个好问题。当然,关于这方面的讨论有很多。我认为,当我观察AI领域时,我看到了很多进展,而且进展速度非常快。我认为最好的观察方式是AI领域总体上对许多不同行业产生的影响。你可以看到这一点在越来越多的不同职业中发生。人们正在使用AI模型来帮助他们的工作。学生正在使用AI模型来帮助他们的作业。


或者我们在日常生活中使用这些模型来了解事物,了解我们好奇的事物,想了解更多的东西。所有这些方面,模型在我们的日常生活中变得越来越有影响力。所以我认为进展非常快。当我观察我们自己模型能力的进展时,我认为我们看到非常令人兴奋的进展正在发生。


我认为有时候,并不总是全新的能力出现,而是模型所使能的能力。你能做什么新事物?从模型开发的角度来看,当我们观察预训练、后训练时,我们看到各方面都有相当令人振奋的发展。我认为随着我 们了解更多,随着我们与用户进行更多互动,这将继续一段时间,这对我们来说非常重要,能够通过我们的产品进行这个开发周期,触达我们的用户。我们将更多了解他们的需求在哪里,他们对什么感兴趣,他们想学什么,这将引导我们引入新能力并构建技术。



文章来自于微信公众号 “硅星GenAI”,作者 “硅星GenAI”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0