
性能逼近闭源最强,通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA
性能逼近闭源最强,通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA覆盖桌面、移动和 Web,7B 模型超越同类开源选手,32B 模型挑战 GPT-4o 与 Claude 3.7,通义实验室全新 Mobile-Agent-v3 现已开源。
覆盖桌面、移动和 Web,7B 模型超越同类开源选手,32B 模型挑战 GPT-4o 与 Claude 3.7,通义实验室全新 Mobile-Agent-v3 现已开源。
22-25岁初入职场的年轻人,就业率同比已经下降了13%,AI带来的就业冲击愈发严峻。一些老板们也开始冻结招聘,将AI能力不足的求职者直接拒之门外。AI造就的新形势迫使我们认真思考,哪些岗位是很难被AI取代的呢?
谷歌回归搜索老本行,这一次,它要让 AI 能像人一样「看见」网页。 这是谷歌前不久在 Gemini API 全面上线的 URL Context 功能(5 月 28 日已在 Google AI Studio 中推出),它使 Gemini 模型能够访问并处理来自 URL 的内容,包括网页、PDF 和图像。
原来,Scaling Law在32年前就被提出了! 不是2020年的OpenAI、不是2017年的百度,而是1993年的贝尔实验室。
AI 硬件,已经成为大模型之后,又一个令人兴奋的领域。 正如 AI Agent 从通用开始走向垂直,AI 硬件,也已经逐渐分化到「陪伴」、「工作」等各个垂直领域。
国内AI音乐领域迎来突破性进展。日前,自由量级0到1全自研的音乐大模型——“音潮音乐”已成功通过国家互联网信息办公室的生成式人工智能服务备案(备案号:Shanghai-YinChaoYinYue-202507160059)。
当前AI大模型(LLM)训练与推理对算力的巨大需求,以及传统计算精度(如FP16/BF16)面临的功耗、内存带宽和计算效率瓶颈。
当前,业界顶尖的大模型正竞相挑战“过度思考”的难题,即无论问题简单与否,它们都采用 “always-on thinking” 的详细推理模式。无论是像 DeepSeek-V3.1 这种依赖混合推理架构提供需用户“手动”介入的快慢思考切换,还是如 GPT-5 那样通过依赖庞大而高成本的“专家路由”机制提供的自适应思考切换。
GPT-4o发布才过去半年,Nano Banana这种「下一代」的生图模型就出来了。 这难道是AI界的摩尔定律?不敢想再过半年后,会是什么样的「魔鬼级」生图模型来屠Nano Banana
DeepSeek发布DeepSeek-V3.1,使用的UE8M0 FP8 Scale针对下一代国产芯片设计