
北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师
北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师给大模型当老师,让它一步步按你的想法做数据分析,有多难?
来自主题: AI技术研报
6244 点击 2025-06-10 16:25
给大模型当老师,让它一步步按你的想法做数据分析,有多难?
GPT-4在为人类选股时,表现竟然超越了大部分人类分析师,和针对金融训练的专业模型?在没有任何上下文的情况下,它们直接就成功分析了财务报表,这一发现让许多业内大咖震惊了。然而好景不长,有AI大牛指出研究中的bug:之所以会这样,很可能是训练数据被污染了。
AI又把「魔爪」伸向了一波打工人,而且这次还是一波高级打工人。