Sora2不够香了!这款国产AI视频模型已经能边看边生成,生成快还互动佳
Sora2不够香了!这款国产AI视频模型已经能边看边生成,生成快还互动佳还在用Sora2做恶搞视频或表情包玩儿?快醒醒,国内AI视频玩家已实现弯道超车了—— 开卷实时流式生成!
还在用Sora2做恶搞视频或表情包玩儿?快醒醒,国内AI视频玩家已实现弯道超车了—— 开卷实时流式生成!
奥特曼宣布重新上线个性化、富有人味的的新ChatGPT版本,并将在12月份开放「成人模式」,OpenAI最终还是没忍住,要抄马斯克的Grok作业了~
人火了是连毕业论文都要被翻出来的(doge)。 这不,宇树科技CEO王兴兴的硕士毕业论文就被网友们掘地三尺找到了。
从「深蓝」到ChatGPT和DeepSeek,AI已从棋盘上的较量转向生产力革命。中国移动以自研「九天」大模型为核心,打造「灵犀智能体」,一个能理解意图、主动服务的全场景生活助手。通过「灵犀贴贴」实现AI+NFC的便捷交互。同时「爱购商城」以「AI豆」构建统一价值体系,打通通信、消费与智能生态,为用户提供个性化、温度化的智能生活新范式。
基础模型(FM)是一种在海量数据上训练的人工智能系统,具备强大的通用性和跨模态能力。港科大最新发表的论文显示:FM可能引领科学进入第五范式,但大模型的偏见、幻觉等问题仍需正视。
开源大模型,进入中国时间。 10月,公开数据显示,来自中国的开源大模型已经牢牢占据榜单前五。 阿里的Qwen系列和DeepSeek,更是从2024年下半年起,就在开源社区构建起越来越深远的影响力。
在AI智能体日益依赖记忆系统的时代,一种新型攻击悄然兴起:记忆投毒。A-MemGuard作为首个专为LLM Agent记忆模块设计的防御框架,通过共识验证和双重记忆结构,巧妙化解上下文依赖与自我强化错误循环的难题,让AI从被动受害者转为主动守护者,成功率高达95%以上。
一张图片包含的信息是多维的。例如下面的图 1,我们至少可以得到三个层面的信息:主体是大象,数量有两头,环境是热带稀树草原(savanna)。然而,如果由传统的表征学习方法来处理这张图片,比方说就将其送入一个在 ImageNet 上训练好的 ResNet 或者 Vision Transformer,往往得到的表征只会体现其主体信息,也就是会简单地将该图片归为大象这一类别。这显然是不合理的。
教育 AI 的热度正重新回到上升曲线。不同于早期的「狂飙阶段」,如今的竞争更像一场结构重排——头部在稳,中腰在提速,尾部在寻找新的出口。AI 在教育中的角色,也从单一的「功能工具」,进化为教学系统中的「生态节点」。
针对视觉 Transformer(ViT)因其固有 “低通滤波” 特性导致深度网络中细节信息丢失的问题,我们提出了一种即插即用、受电路理论启发的 频率动态注意力调制(FDAM)模块。它通过巧妙地 “反转” 注意力以生成高频补偿,并对特征频谱进行动态缩放,最终在几乎不增加计算成本的情况下,大幅提升了模型在分割、检测等密集预测任务上的性能,并取得了 SOTA 效果。
近日,RoboChallenge 重磅推出!这是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试。
近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而,当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时,现有模型却常常「力不从心」。
10月15日消息,近日,在泰安市卫星互联网产业发展暨“星算”计划02组星座合作大会上,国星宇航“星算”计划02组星座正式发布,单星算力突破10P的“天秤-10”卫星同步亮相。此外,多项产业合作项目现场达成签约。
加州大学伯克利分校等机构的研究人员,近日推出了一种全新的基因组语言模型GPN-Star,可以将全基因组比对和物种树信息装进大模型,在人类基因变异预测方面达到了当前最先进的水平。
10月16日消息,OpenAI首席执行官山姆·奥特曼于美国当地时间周三表示,该公司并非"经选举产生的世界道德警察"。此前,他决定放宽限制,允许其聊天机器人ChatGPT生成成人内容,这一决定引发了强烈反弹。
无论是中文的粤语、闽南话、吴语,还是欧洲的荷兰比尔茨语方言、法国奥克语,亦或是非洲和南美的地方语言,方言都承载着独特的音系与文化记忆,是人类语言多样性的重要组成部分。然而,许多方言正在快速消失,语音技术如果不能覆盖这些语言,势必加剧数字鸿沟与文化失声。
互联网大厂要引流,教育大厂想变现。
在这个新访谈中,Sutton 与多位专家一起,进一步探讨 AI 研究领域存在的具体问题。
AI席卷职场,大厂裁员与岗位替代加速。奥特曼称能被AI取代的工作并非「真工作」。硅谷上演「代码战争」:有人拥抱Cursor/Claude提效,有人拒用AI遭解雇。在效率与质量拉扯中,人类价值与工作定义正被重写。
“如果一个问题只需小模型就能回答,为什么还要让更贵的大模型去思考?”
从2025年9月开始,美国多家科技巨头放弃彼此间的“恩恩怨怨”,转而围绕算力展开串联合作,呈现成片的“合纵连横”态势。
在最近的一篇 NeurIPS 25 中稿论文中,来自中山大学、加州大学 Merced 分校、中科院自动化研究所、诚橙动力的研究者联合提出了一个全新开源的高自由度灵巧手平台 — RAPID Hand (Robust, Affordable, Perception-Integrated, Dexterous Hand)。
这是一个信息悖论的时代。
四十年前,他说:「计算机永远不会思考」。四十年后,AI开始拒绝指令、撒谎、反思、甚至「自我保护」。哲学家约翰·塞尔——「中文屋」思想实验的作者、AI怀疑论的旗手,却在去世的那一周,被时代反讽。他花一生质问机器是否真正「理解」,而如今,机器反问我们:你们的理解,又凭什么是真实的?
当地时间10月15日,人工智能初创公司Anthropic发布轻量级模型Claude Haiku 4.5。同时知情人士透露,该公司计划2026年实现年化营收近三倍增长,以巩固其作为OpenAI主要竞争对手的行业地位。
正如前几天网上泄露与传闻所预料的那样,深夜,谷歌发布了最新的 AI 视频生成模型 Veo 3.1。Veo 3.1 带来了更丰富的音频、叙事控制,以及更逼真的质感还原。在 Veo 3 的基础上,Veo 3.1 进一步提升了提示词遵循度,并在以图生视频时提供更高的视听质量。
只花120元,效果吊打70000元微调!腾讯提出一种升级大模型智能体的新方法——无训练组相对策略优化Training-Free GRPO。无需调整任何参数,只要在提示词中学习简短经验,即可实现高性价比提升模型性能。
智东西10月15日报道,今日,阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本,两个尺寸均提供Instruct与Thinking版本,在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。
前端UI的工作,被谷歌AI一夜干没了。 就在最新能力展示中,Gemini 3.0 Pro居然自己“捏”出了一个macOS。
在几天前的开发者大会上,OpenAI 发布了一套面向开发者和企业的完整工具集 AgentKit。其中,可视化画布 Agent Builder 用于创建、管理和版本化多智能体工作流,通过拖拽节点的方式即可编辑工作流。