GPT-4o最自私,Claude更慷慨!DeepMind发布全新「AI道德测试」
GPT-4o最自私,Claude更慷慨!DeepMind发布全新「AI道德测试」智能体在模拟人类合作行为的捐赠者游戏中表现出不同策略,其中Claude 3.5智能体展现出更有效的合作和惩罚搭便车行为的能力,而Gemini 1.5 Flash和GPT-4o则表现得更自私,结果揭示了不同LLM智能体在合作任务中的道德和行为差异,对未来人机协同社会具有重要意义。
智能体在模拟人类合作行为的捐赠者游戏中表现出不同策略,其中Claude 3.5智能体展现出更有效的合作和惩罚搭便车行为的能力,而Gemini 1.5 Flash和GPT-4o则表现得更自私,结果揭示了不同LLM智能体在合作任务中的道德和行为差异,对未来人机协同社会具有重要意义。
刚刚,OpenAI 的 CEO Sam Altman 发布了自己的年终总结!!
真正有用的主力模型。
在 LLM 落地场景中,医疗领域的应用开始展现出比较高的确定性,尤其是 AI scribe 产品能解决临床文档记录枯燥、耗时这一行业痛点。Abridge 是其中最有代表性的公司,训练了专用于临床文档的 ASR 和文本生成模型,能够替代 90% 左右的人工工作量。
此项研究成果已被 AAAI 2025 录用。该论文的第一作者是南洋理工大学计算与数据科学学院 (CCDS) 的硕士生杨潇,师从苗春燕教授,主要研究方向是图神经网络。
电影《钢铁侠》中,托尼·斯塔克的助手贾维斯(J.A.R.V.I.S.)能帮他控制各种系统并自动完成任务,曾让无数观众羡慕不已。
万字长文盘点 2024,展望 2025 2024 年,大语言模型(LLM)迎来了翻天覆地的变化。让我们一起回顾过去一年中这个领域的重大发现,梳理其中的关键主题和标志性时刻。
2024 年初,我们明显感受到 GenAI(生成式人工智能)仍将是技术发展和风险投资的重点方向。在顶尖的 AI 实验室算力需求的推动下,模型层继续吸引了最多的资本投入。代码辅助、营销和客户支持等场景的落地正在加速,同时随着巨头们加入这场军备竞赛,全球资本支出也在增加。
AI Agent 是我们紧密追踪的范式变化,Langchain 的一系列文章对理解 Agent 的发展趋势很有帮助。在本篇编译中,第一部分是 Langchain 团队发布的 State of AI Agent 报告。
Agent产业革命已经打响。