Anthropic联创:还不存在真正递归自我改进的AI!曝内部调查结果:AI未必能实现开发效率爆炸式增长;Claude也能修水管,看好分布式预训练
Anthropic联创:还不存在真正递归自我改进的AI!曝内部调查结果:AI未必能实现开发效率爆炸式增长;Claude也能修水管,看好分布式预训练Anthropic联创又出来说话了!
Anthropic联创又出来说话了!
大模型能写代码、解奥数,却连幼儿园小班都考不过?简单的连线找垃圾桶、数积木,人类一眼即知,AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」,这个评测基准给出答案。
这些改变世界的产品,最初居然都是不被当回事儿的支线项目(side project)?!
2026硅谷「爽文剧本」已备好:Ilya将卖掉SSI、OpenAI可能吞下Pinterest、特斯拉将接盘xAI、苹果AI有望翻身……这些惊人预言到底哪些会在2026年成真?
相信很多朋友,都听过Claude Code的大名。
Deepmind推出的SIMA 2,让智能体能在虚拟环境(商业游戏)中,边聊天边进行复杂的多模态推理。作为具身通用智能的原型,SIMA 2已从静态数据集迈向无限程序化生成的训练场。
当全市场都在用Agent炒股,人类的唯一胜算在哪?
昨天,那个硅谷少有的“横跨三代技术浪潮、持续站在牌桌中央、系统性改写投资规则”的传奇人物,终于又一次出来公开说他的大实话了!
当AI自主攻克难题吹成神话时,陶哲轩深夜发帖辟谣:别断章取义,孤例不等于AI已具备高级数学能力。他强调AI更像工具链——擅长检索、改写、形式化验证和跑套路,但数学真正的灵魂活仍离不开人类。
打官司这件事,尤其是涉及到土地征收和强拆的“民告官”,是一场漫长且消耗巨大的折磨。
GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年,GRPO 及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法。
2022年,Google Cloud 将π计算到100万亿位,在2025年,高性能计算界的知名评测机构 StorageReview只用了4个月的时间,花了不到一千美元电费就将π算到314万亿位,这可不是为了炫技,而是说明高性能计算也可以很节能。
全球榜单中唯一成功率超过50%的模型。今日,千寻智能正式开源自研VLA基础模型Spirit v1.5,就在前一天,该模型在全球具身智能模型评测平台RoboChallenge上,综合评测斩获第一。
《Nature Medicine》 的研究报道“A multimodal sleep foundation model for disease prediction”,研究人员开发了一种名为 SleepFM 的基础模型,从超过58万小时的记录中“学会”了睡眠的语言。这不仅是睡眠科学的进步,更是AI在生物医学领域的深层突围。
据Grand View Research报告,2024年全球AI医疗市场规模约为266.5亿美元(约合人民币1861亿元),预计到2033年将飙升至约5055.9亿美元(约合人民币3.5万亿元),年复合增长率达38.8%。
独家获悉,AI DataAgent公司 ChatExcel 近期已完成 Pre-A 轮与 A 轮两轮累计数千万元融资,投资方为考拉基金与合鼎共资本。在此之前,该公司曾获得上海常垒资本、武汉东湖天使基金的投资。
近日,海外版《外卖骑手困在系统里》在 Reddit 上发酵,获得了超过 8.7 万赞,直冲首页。这是一个符合大众对「万恶资本」的想象的故事,但也是一场 AI 生成的骗局。
个人开发者对高性能AI算力的需求,正在得到越来越多厂商的正面回应。在年度消费电子大展CES 2026上,桌面AI超算几乎成了所有PC厂商的必答题。连续两年亮相CES的阿里云无影云电脑,则给出云厂商对桌面AI超算的回答:一台面向个人消费者的AI超级计算机——无影AI云超算。
戴明博表示,这家名为 Elorian 的新公司目前正在与投资人洽谈,计划完成一轮约 5000 万美元的种子融资。知情人士透露,由前 CRV 普通合伙人 Max Gazor 于去年 10 月创立的风投机构 Striker Venture Partners 正在洽谈领投该轮融资。
一封内部信揭开了AI巨头们之间最尴尬的秘密。根据内部Slack泄露的消息,xAI联合创始人Tony Wu向全体员工发布了一则紧急通知:各位同事,相信很多人已经发现,Cursor中的Claude(Anthropic)模型已无法响应。据Cursor反馈,这是Anthropic针对所有主要竞争对手实施的新政策。
有了 AI,科学研究是否有一天可以摆脱对湿实验的高度依赖,通过在计算机中构建“虚拟细胞”,来模拟和理解新药可能产生的生物效应?如今,这一愿景正被逐步实现。由上海交通大学郑双佳教授及其研究团队打造的 V
刚刚,GPT-5.2刷新了一项新纪录!OpenAI联合创始人Greg Brockman发帖称使用GPT-5.2在ARC-AGI-2基准测试上,表现超过了人类基线水平。
英文达杰出科学家Jim Fan表示,我正全身心投入一个单一使命:为机器人解决「Physical Turing Test」(物理图灵测试)。 这是AI的下一个挑战,甚至可能是「终极挑战」。
清华攒了个局,把AI圈大半边天聚到了一块。基模四杰全员到场:智谱唐杰、Kimi杨植麟、阿里林俊旸,还有……突然贴脸跳屏的姚顺雨。
浏览器之争已不单是速度对决!新玩家Atlas与Comet能替你订票购物,AI代理时代已至;然而老大哥Chrome凭71%份额稳坐钓鱼台。未来,是拥抱全能助手的便捷,还是警惕安全漏洞的深渊?决胜局就在此刻!
前几天元旦,DeepSeek 又激发了「假期更新」 Buff,梁文锋署名新论文刷屏 AI 圈,就在大家都在等待 V4 的发布时,我发现有一群人早就在 DeepSeek 里找到了新乐子:自制「橙光游戏」。
全球程序员最喜欢的工具迎来最大更新。Boris老哥不仅靠自造的Claude Code年入10亿美金,现在更是玩起了极致「套娃」,用Claud Code开发Claude Code,疯狂迭代1096次提交!
近期,DeepSeek-OCR 凭借其创新的「视觉文本压缩」(Vision-Text Compression, VTC)范式引发了技术圈的高度关注。为了解答这一疑问,来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉 - 文本压缩范式的基准测试 ——VTCBench。
SmartSnap的核心思想是将GUI智能体从“被动的执行者”转变为“主动的自证者”。简单来说,智能体在完成任务的同时,还会主动收集、筛选并提交一份“证据快照集”。
哈工大、鹏城实验室、新加坡国立、复旦、北大联合发布了一篇重磅综述《AI Meets Brain: A Unified Survey on Memory System from Cognitive Neuroscience to Autonomous Agents》,首次打破认知神经科学与人工智能之间的学科壁垒,系统性地将人脑记忆机制与 Agents 记忆统一审视,