
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeek R1)。
最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeek R1)。
就在刚刚,Ilya出现了!他大义凛然发文,自封为SSI唯一CEO,而Daniel Levy将担任总裁。要实现SSI的梦想,多少钱都不卖。
离谱! 一群AI初创公司竟然集体控诉:我们被一个印度老哥骗了。这个名叫Soham Parekh的人,在隐瞒真实情况下进行远程兼职,最多一次打了五份工。
由 Scout RFP 创始团队打造的,采购软件初创企业 Levelpath 近日完成 5500 万美元 B 轮融资,本轮由 Battery Ventures 领投。
刚刚,网页设计工具开发商 Figma 向美国证券交易委员会(SEC)提交文件,申请首次公开募股(IPO)。该公司在招股书提及 “人工智能(AI)” 超 150 次,既将其描述为“创意加速器”,也视其为 “潜在威胁”。
让马斯克秒变带货主播。
在这个万物皆可AI的时代,教育自然也不例外。在智能化、个性化学习体验等多重需求的驱动下,人工智能与教育行业正在进行一场盛大的双向奔赴。
MIT最新研究让LLM直接操控宇宙飞船进行太空追逐挑战赛:ChatGPT少量微调即获第二,开源Llama更胜一筹,凭提示词精准追踪卫星、节省燃料,更是0%失败率,验证AI小数据高效与自主航天可行,为未来的太空漫游铺路。
马斯克和特朗普,这对白宫二人转最近“嘴炮大战”进入到2.0时期。和这对欢喜冤家类似的,是国外出版商集团和AI巨头之间的相爱相杀——一方面有大出版商要和AI公司合作,另一方面也有出版商誓死要把AI巨头告破产。
如果说硅谷最近有什么产品能真正给大家带来那种珍贵的 aha moment,语音输入产品 Wispr Flow 就是其中之一。