从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!
从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。
大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。
根据金融时报报道,美国风投巨头Benchmark或将被迫从Manus撤资。多位知情人士透露,美国财政部已对这笔交易展开审查,最糟情况下,Benchmark可能被要求全面退出。
一家成立不足两年的以色列公司Decart突然以31亿美元估值拿下1亿美元B轮融资,领投方是红杉资本,Benchmark、Zeev Ventures等顶级风投也争相入局。
从今年4月底Manus完成了Benchmark领投的新一轮融资之后,市场上一直在关注Manus的Reverse CFIUS问题——很多人都等着看美国监管部门会不会枪打出头鸟,让Manus成为其第一个实际判罚案例
你有没有想过,为什么在这个云计算和AI横行的时代,PDF文档处理依然是企业最大的痛点之一?想象一下这样的场景:一份包含数百页的贷款申请文档躺在银行系统里,等待人工审核,而申请人只能苦苦等待几天甚至几周才能知道结果。与此同时,医院里的医疗记录还在用打印机输出,然后手工传递给下一个医生。
2025 年 6 月 23 日,由 GMI Cloud 联合 InfoQ 举办的 “2025 AI 应用出海年中洞察暨 GMI Cloud 新品发布会” 在线上举行。
推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接突破了benchmark上限
Benchmark 合伙人 Eric Vishria 最近跟 Banana Capital 合伙人 Turner Novak 在其播客 The Peel 做了一个非常精彩的对话,这是我最近觉得非常不错的一个访谈。
两年半前,Liam Fedus 曾参与 ChatGPT 的研发团队,掀起了人工智能热潮。如今他加入了日益壮大的 OpenAI 前员工创业阵营,乘着 AI 投资风口创立自己的企业。
进入2025年以来, AI Agent的发展明显提速。5月6日,OpenAI宣布以30亿美元收购 Windsurf;编程工具Cursor的母公司Anysphere也获得了9亿美元的融资,估值高达90亿美元;号称中国第一个通用AI Agent的Manus在五月也获得了硅谷老牌风险投资公司Benchmark领投的7500万美元的融资;