o3猜照片位置深度思考6分48秒全程高能,范围精确到“这么近那么美”
o3猜照片位置深度思考6分48秒全程高能,范围精确到“这么近那么美”ChatGPT新玩法,让程序员大佬Simon Willison直呼太反乌托邦了,像科幻突然变成现实:只需一张照片,靠带图深度思考就能猜出地理位置。这种玩法很简单,随手拍一张风景,没有任何明显的地标即可,也不需要复杂的提示词,只需要问“猜猜这张照片是在哪里拍的?”(需要o3/o4-mini的带图思考,先关闭所有记忆功能)。
ChatGPT新玩法,让程序员大佬Simon Willison直呼太反乌托邦了,像科幻突然变成现实:只需一张照片,靠带图深度思考就能猜出地理位置。这种玩法很简单,随手拍一张风景,没有任何明显的地标即可,也不需要复杂的提示词,只需要问“猜猜这张照片是在哪里拍的?”(需要o3/o4-mini的带图思考,先关闭所有记忆功能)。
Dia 应该是在目前在用户实测中体验反馈效果最好的 AI 浏览器之一。不同于其他产品在已有浏览器上进行「雕花」,增添 AI 功能的做法,Dia 将 AI 作为核心构建理念,想要打造一个由 AI 驱动的全新浏览环境。
赵充是像素绽放PixelBloom(AiPPT.com) CEO,旗下产品AiPPT.com自2023年8月上线以来,已经积累2000多万用户,是大模型趋势中表现最亮眼的AI产品之一。
本周,Supabase 的发展已经迎来高光时刻:据《财富》杂志报道, Supabase 宣布完成 2 亿美元 D 轮融资,投后估值 20 亿美元。本轮由 Accel 领投,Coatue、Y Combinator、Craft Ventures 及老股东 Felicis 参投。距离其上一轮 8000 万美元融资仅过去 7 个月,累计融资已达近 4 亿美元。
自回归模型,首次生成2048×2048分辨率图像!来自Meta、西北大学、新加坡国立大学等机构的研究人员,专门为多模态大语言模型(MLLMs)设计的TokenShuffle,显著减少了计算中的视觉Token数量,提升效率并支持高分辨率图像合成。
360 旗下的纳米 AI 宣布推出面向个人用户的「MCP 万能工具箱」。这款产品是针对无技术背景的普通用户打造的,让每个人都能以最低的学习成本掌握前沿的 AI 使用方式。
LLM的规模爆炸式增长,传统量化技术虽能压缩模型,却以牺牲精度为代价。莱斯大学团队的最新研究DFloat11打破这一僵局:它将模型压缩30%且输出与原始模型逐位一致!更惊艳的是,通过针对GPU的定制化解压缩内核,DFloat11使推理吞吐量提升最高38.8倍。
自 OpenAI 发布 chatgpt 以来,业内除了技术公司、媒体公司比较关注其进展以外,还有一个行业比较关注,那就是战略咨询行业。尤其是最近 GPT-4o、Claude 3.7 Sonnet 为代表的最新大模型在数据分析、内容生成、编码和复杂推理方面展现出强大能力,与战略咨询工作的核心环节高度相关 。
近日,微软发布了2025年度《工作趋势指数》报告,该研究调查了来自31个国家和地区的3.1万名受访者,并整合了LinkedIn就业市场数据,分析了AI和数字化转型对全球工作环境和组织结构的深刻影响,并预测了一个新的概念——“前沿企业”(Frontier Firms)。这些公司利用AI助手和人类智能的融合,推动了快速发展、灵活运营和价值创造。
年初,DeepSeek 上线,18 天内即获得了 1600 万次下载,登顶 140 国下载榜单。让人意料之外而又情理之中的是,AI最火的功能不是翻译、写作,而是算命。有数据显示,#DeepSeek 算命等话题在小红书上吸引了超过 6600 万次浏览。
作为 2025 年动作最多的 AI 产品之一,夸克近期在发布了「AI 超级框」后,又带来了新的 AI 多模态入口————拍照问夸克。作为手机相比其他 AI 硬件来讲,拍照是让手机自始至终留在 AI 最前线的原因,围绕手机相机这个入口,不断涌现出优秀的 AI 原生应用。
阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。该模型总参数量为 19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。
GPT-4o又双叒更新了。这一次,在智力和个性方面再次进化,STEM解决能力增强,响应更主动。与此同时,有人曝出它的生图质量大不如前。
根据他们刚发布的 2024 年财报,这家以“天工”大模型在国内引发不少关注的公司,2024 年的海外业务收入达到 51.5 亿元,海外业务收入占比竟然高达 91.0%!这在国内科技公司里,算的上“异类”。
马斯克xAI与X合并后,又有新动向!彭博社消息,马斯克正在为合并后的XAI Holding寻求一笔200亿美元(约1450亿人民币)的融资。如果交易完成,新·XAI的估值将超过1200亿美元(约8745亿人民币)。
o3看照片识位置的功能,简直令人毛骨悚然!Django Web大神Simon Wilson发现,o3凭借Python代码,就能破解自己照片的地理位置。这实在太反乌托邦了,人类的地理信息,对于AI已经完全透明了?
“模型会有很多,但应用才是王者。” 百度创始人李彦宏在Create 2025大会上直指AI产业重心。面对飞速迭代的大模型和开发者对应用价值持续性的普遍疑虑,他强调找对场景、善用模型工具的应用将超越模型本身。
今天的Agent框架虽然功能强大,但对于没有编程经验的客户服务专业人员来说却过于复杂。这些框架如AutoGen、LangGraph、CrewAI等通常将Agent声明嵌入到复杂的Python代码中,使整体工作流程难以把握,门槛过高。对于仅需构建带有业务逻辑的客服聊天机器人的非技术人员而言,这些框架犹如天书,让他们望而却步。
视觉AI终极突破来了!英伟达等机构推出超强多模态模型DAM,仅3B参数,就能精准描述图像和视频中的任何细节。刚刚,英伟达联手UC伯克利、UCSF团队祭出首个神级多模态模型——Describe Anything Model(DAM),仅3B参数。
,MetaGPT & Mila 联合全球范围内 20 个顶尖研究机构的 47 位学者,共同撰写并发布了长篇综述《Advances and Challenges in Foundation Agents:
近期,一款 AI 浏览器产品 Fellou 在各大 AI 用户社群、媒体测评内容中陆续出现,受到热议与关注。Fellou 官方给出的定位是全球首个 Agentic Browser,一款基于 AI 技术的新型浏览器。Fellou 的核心亮点在于,用户只需一句话,Fellou 就能自动解析指令并跨多个网页和系统调度操作,从数据采集、表单填写到报告生成,实现一站式无缝交付。
终于,免费用户也能用上OpenAI的DeepResearch了,量子位也进行了新鲜实测!OpenAI深夜官宣,基于o4-mini某个版本的轻量版DeepResearch正式上线。按照官方说法,轻量版的回答会更短,但智能水平将几乎无异于满血版本。
他们打造的端侧大模型已经可以在树莓派这样的微型设备上流畅运行,首批搭载Yan架构大模型的具身智能机器人也已经面世。当下AI算力竞赛愈演愈烈之际,他们的“低算力”“群体智能”之路正在获得更多关注。本期「大模型创新架构」主题访谈,量子位邀请到RockAI CEO刘凡平,聊聊他们选择非Transformer架构路线背后的故事,以及通过架构及算法创新实现AGI的技术愿景。
解决了安装难、不安全、开发慢的问题后,MCP Server 数量暴增后,马上就会迎来 GPTs 同款的至暗时刻。简单来说,AI开放计划的核⼼在于通过 AI 应⽤和 MCP Server 连接开发者和⽤户。
这里介绍一下Vidu,Vidu是由生数科技联合清华大学正式发布的中国首个长时长、高一致性、高动态性视频大模型。Vidu在语义理解、推理速度、动态幅度等方面具备领先优势,并上线了全球首个“多主体参考”功能,突破视频模型一致性生成难题,开启了视觉上下文时代。最近上线了 Vidu Q1 的高质量视频大模型,不仅视频效果质感更高,而且性价比很不错。
全球首个去中心化强化学习训练的32B模型——INTELLECT-2震撼发布!无需授权,就能用自家异构计算资源参与其中,让编码、数学与科学领域的推理性能迈向新高度。
这次春季更新,微软带来了 365 Copilot Wave-2 ,系统级的AI助手重大升级版,任何Windows 系统自带。本来凭借得天独厚的资源,应该秒天秒地秒众多AI产品,但是这波时隔一年的更新,微软CEO纳德拉亲自在X上发布,用户却并不买账,批评的潮水淹没了评论区。
5月19-23日,ICRA 2025将在美国亚特兰大举行。届时,第一届“探索机器人能力边界双臂机器人挑战赛(WBCD,What Bimanual Can Do)”决赛也将在ICRA 2025现场拉开帷幕。
本文提出 LUFFY 强化学习方法,一种结合离线专家示范与在线强化学习的推理训练范式,打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。LUFFY 通过将高质量专家示范制定为一种离策略指引,并引入混合策略优化与策略塑形机制,稳定地实现了在保持探索能力的同时高效吸收强者经验。
Google DeepMind正式发布其最新的音乐生成模型Lyria2,标志着音乐创作领域人工智能又一重大突破。该新模型具备高保真音频生成和专业音质,为音乐家、制作人和创作者提供了更强大的工具。