
李飞飞吴佳俊团队新作:推出具身智能决策能力评价基准,o1-preview登顶 | NeurIPS
李飞飞吴佳俊团队新作:推出具身智能决策能力评价基准,o1-preview登顶 | NeurIPS大模型的具身智能决策能力,终于有系统的通用评估基准了。
大模型的具身智能决策能力,终于有系统的通用评估基准了。
这可能是最懂 AI 产品的两位 PM 之间的对谈。Kevin Weil,OpenAI CPO(首席产品官),之前曾是 Instagram、Twitter 的产品副总裁。Mike Kreiger,Anthropic CPO,曾担任 Instagram 的联合创始人、CTO。
Devin,全球第一款号称「AI程序员」的应用,号称可以完成从写代码、改bug,一直到部署上线运维的软件开发全流程。
这是Perplexity CEO Aravind Srinivas 不久前在 TechCrunch Disrupt 上与 TechCrunch 高级编辑 Devin Coldewey 的一场对话。
终于,Windows用户也可以用上ChatGPT了。就在刚刚,OpenAI推出了适用Windows系统的ChatGPT应用。不过,目前仅供ChatGPT Plus、Team、Enterprise和Edu用户使用。
AI颠覆人类的第一步:读懂人心
o1-preview终于赢过了mini一次! 亚利桑那州立大学的最新研究表明,o1-preview在规划任务上,表现显著优于o1-mini。
数学击败o1-preview,成本仅为十分之一,并且几乎没有思考延迟!
OpenAI的o1系列一发布,传统数学评测基准都显得不够用了。
随着AI模型的水平不断提高,现有的基准测试也被逐一攻破。CAIS和Scale AI共同发起了属于人类的最后一搏,悬赏50万美元,把最高难度、只有最顶尖的人才能回答出的问题收集起来作为基准,是否能挡住AI模型的攻势?