
多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools
多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoToolsOctoTools通过标准化工具卡和规划器,帮助LLMs高效完成复杂任务,无需额外训练。在16个任务中表现优异,比其他方法平均准确率高出9.3%,尤其在多步推理和工具使用方面优势明显。
OctoTools通过标准化工具卡和规划器,帮助LLMs高效完成复杂任务,无需额外训练。在16个任务中表现优异,比其他方法平均准确率高出9.3%,尤其在多步推理和工具使用方面优势明显。
斯坦福李飞飞团队在「保姆型」机器人上新突破!提出BRS综合框架,以后机器人执行日常家务更自主、更可靠。
虽然 Qwen「天生」就会检查自己的答案并修正错误。但找到原理之后,我们也能让 Llama 学会自我改进。
STP(自博弈定理证明器)让模型扮演「猜想者」和「证明者」,互相提供训练信号,在有限的数据下实现了无限自我改进,在Lean和Isabelle验证器上的表现显著优于现有方法,证明成功率翻倍,并在多个基准测试中达到最先进的性能。
斯坦福和普林斯顿研究者发现,DeepSeek-R1生成的自定义CUDA内核,完爆了o1和Claude 3.5 Sonnet,拿下总排名第一。虽然目前只能在不到20%任务上超越PyTorch Eager基线,但GPU编程加速自动化的按钮,已经被按下!
数据库公司 MongoDB Inc.宣布,将以 2.2 亿美元的现金加股票交易收购 Voyage AI,以加速其帮助客户构建人工智能驱动应用程序的能力。
在人工智能高速发展的今天,我们似乎迎来了一个"假设爆炸"的时代。大语言模型每天都在产生数以万计的研究假设,它们看似合理,却往往难以验证。这让我不禁想起了20世纪最具影响力的科学哲学家之一——卡尔·波普尔。
生物学大模型又迎新里程碑!2025 年 2 月 19 日,来自 Arc Institute、英伟达、斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的科学家们,联合发布了生物学大模型 Evo2。
AI虚拟细胞,在计算机中代谢的生命体。2024年12月,斯坦福大学、基因泰克制药公司和陈-扎克伯格基金会的研究团队在《Cell》杂志上发表论文[1],呼吁全球科学界利用AI技术制造这一“数据细胞”。听起来像是科幻电影里的情节,但它正在悄然发生,并即将改变生物医学界的未来。
问题挺严重,大模型说的话可不能全信。