AI资讯新闻榜单内容搜索-模拟人类

大模型“天梯赛”来了，让Agent在Kaggle真实任务中进化｜佐治亚理工、斯坦福开源

当前最强大的大语言模型（LLM）虽然代码能力飞速发展，但在解决真实、复杂的机器学习工程（MLE）任务时，仍像是在进行一场“闭卷考试”。它们可以在单次尝试中生成代码，却无法模拟人类工程师那样，在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。

来自主题: AI技术研报

6004 点击 2025-07-27 12:43

Nature刊文称“AI可模拟人类心智”，Science同日强烈质疑

7月2日，一个跨国团队在Nature杂志发表了一项开创性研究，宣称其推出的AI系统能够“模拟人类心智”。该系统在实验中可以“扮演”人类，生成逼真的人类行为。

来自主题: AI技术研报

8237 点击 2025-07-21 10:40

演讲生成黑科技，PresentAgent从文本到演讲视频

我们提出了 PresentAgent，一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有方法大多局限于生成静态幻灯片或文本摘要，而我们的方案突破了这些限制，能够生成高度同步的视觉内容和语音解说，逼真模拟人类风格的演示。

来自主题: AI技术研报

6344 点击 2025-07-19 11:31

这个AI精准模拟人类行为大脑状态，上Nature了

首个能跨领域精准预测人类认知的基础模型诞生！

来自主题: AI技术研报

6248 点击 2025-07-14 12:00

端到端GUI智能体首次实现“犯错-反思-修正”闭环，模拟人类认知全过程

端到端多模态GUI智能体有了“自我反思”能力！南洋理工大学MMLab团队提出框架GUI-Reflection。

来自主题: AI技术研报

8772 点击 2025-06-12 12:11

8卡32B模型超越o1预览版、DeepSeek V3，普林斯顿、北大提出层次化RL推理新范式

推理大语言模型（LLM），如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等，通过模拟人类推理过程，在多个专业领域已超越人类专家，并通过延长推理时间提高准确性。推理模型的核心技术包括强化学习（Reinforcement Learning）和推理规模（Inference scaling）。

来自主题: AI技术研报

5697 点击 2025-02-12 11:33

GPT-4o最自私，Claude更慷慨！DeepMind发布全新「AI道德测试」

智能体在模拟人类合作行为的捐赠者游戏中表现出不同策略，其中Claude 3.5智能体展现出更有效的合作和惩罚搭便车行为的能力，而Gemini 1.5 Flash和GPT-4o则表现得更自私，结果揭示了不同LLM智能体在合作任务中的道德和行为差异，对未来人机协同社会具有重要意义。

来自主题: AI技术研报

7543 点击 2025-01-06 15:21

NeurIPS 2024 | LLM智能体真能模拟人类行为吗？答案有了

在这篇论文中，我们专注于人类互动中的信任行为，这种行为通过依赖他人将自身利益置于风险之中，是人类互动中最关键的行为之一，在日常沟通到社会系统中都扮演着重要角色。

来自主题: AI技术研报

7465 点击 2024-12-12 10:11

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解，动态调整下一步检索策略

多模态检索增强生成（mRAG）也有o1思考推理那味儿了！阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch，它能模拟人类解决问题的思维方式，将复杂问题逐步拆解进行智能检索规划。

来自主题: AI资讯

6615 点击 2024-12-04 16:57

逼真到离谱！1000个人类「克隆」进西部世界，AI相似度85%细节太炸裂

AI智能体，已经无限逼近真实人类？1000个人被采访，每人两小时，真实人类的智能体就这么水灵灵地被投放进去了，结果更是令人吃惊：在模拟人类行为上，智能体已经85%逼近真实人类。AI，终究是预判了你的预判。

来自主题: AI资讯

7398 点击 2024-11-19 21:46