超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集
超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集近年来,代码评测集数量激增,但质量参差不齐。为规范其开发,香港科技大学联合多所高校研究了过去十年的274个代码评测集,发现诸多问题,如数据重复、测试用例错误、隐私信息未删除等。基于此,他们推出了《代码评测集发展指南55项》(How2Bench),涵盖设计、构建、评测、分析、发布五大阶段,旨在提升代码评测集的质量与可靠性。
近年来,代码评测集数量激增,但质量参差不齐。为规范其开发,香港科技大学联合多所高校研究了过去十年的274个代码评测集,发现诸多问题,如数据重复、测试用例错误、隐私信息未删除等。基于此,他们推出了《代码评测集发展指南55项》(How2Bench),涵盖设计、构建、评测、分析、发布五大阶段,旨在提升代码评测集的质量与可靠性。
“零基础”也能弹奏出好听和弦的无弦吉他,能监测睡眠呼吸和血氧的智能戒指,能听音乐、打电话、做翻译的AI眼镜……近日,位于徐汇西岸的大模型创新生态社区“模速空间”联手潮流电子新零售品牌Z·Pilot,推出上海首家全球AI潮品体验店。500多平方米的店内汇集了500多件科技潮品,让每一位尝鲜者大呼过瘾。
36氪获悉,近日人形机器人公司松延动力北京科技有限公司(以下简称「松延动力」)完成连续两轮过亿元A轮及A+轮融资。A+轮由彬复领投,华强资本跟投;A轮投资方包括神骐资本、北京未来科学城基金、天启资本、泽然资本、教育科技集团战略方等机构。
给大模型落地,加入极致的务实主义。
融资7个月未果,一家AI创企选择卖身。
3月12日,华尔街见闻获悉,原字节跳动AI大将、火山引擎高管骆怡航于近日加入生数科技,担任CEO一职。去年底,字节TikTok算法负责人陈志杰也被曝出离职创业。
开年以来,DeepSeek的梁文锋、Manus的肖弘,成为中国AI圈冉冉升起的新星。培养他们的母校浙江大学和华中科技大学也一并沾光。
今天凌晨,亚马逊云科技宣布在Amazon Bedrock平台上推出全托管、无服务器的DeepSeek-R1模型,是首个提供DeepSeek-R1作为全托管、正式商用模型的海外云厂商。
前段时间,幻方科技、DeepSeek 创始人梁文锋亲自挂名的一篇论文传遍了全球互联网。
北京时间3月10日,彭博科技报道称,ServiceNow公司接近达成收购人工智能公司Moveworks的交易,交易价格接近30亿美元。