AI资讯新闻榜单内容搜索-eva

美团提出全新多模态统一大模型STAR，GenEval突破0.91，破解“理解-生成”零和困局

近日，美团推出全新多模态统一大模型方案 STAR（STacked AutoRegressive Scheme for Unified Multimodal Learning），凭借创新的 "堆叠自回归架构 + 任务递进训练" 双核心设计，实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。

来自主题: AI技术研报

11220 点击 2026-02-05 13:50

解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估

香港大学（The University of Hong Kong）与 Adobe Research 联合发布 Self-E（Self-Evaluating Model）：一种无需预训练教师蒸馏、从零开始训练的任意步数文生图框架。其目标非常直接：让同一个模型在极少步数也能生成语义清晰、结构稳定的图像，同时在 50 步等常规设置下保持顶级质量，并且随着步数增加呈现单调提升。

来自主题: AI技术研报

9345 点击 2026-01-18 14:57

Anthropic发布万字长文：系统化评估 AI Agents 的工程方法

如果你在做 AI Agent 开发，大概率已经发现一件事： Agent 几乎是传统软件测试方法的反例。

来自主题: AI技术研报

11174 点击 2026-01-13 10:19

最高月费69.99美元，国内AI社交迎来最强商业化玩家？

在 11 月 6 日，「LoveyDovey」宣布开启中文版本“不计费内测”，在小红书获得了超过千条积极反馈。而同样是在 11 月，小冰旗下「X Eva」、美团旗下「Wow」两款 AI 社交应用相继传出停服消息。两相对照，行业所处的分化阶段清晰可见，有的产品挣扎退场，有的产品却在全球范围继续扩张。

来自主题: AI资讯

9597 点击 2025-12-09 16:37

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估

近日，由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models（检测情感动态轨迹：大语言模型情感支持的评估框架）》论文，获 AAAI 2026 录用。

来自主题: AI技术研报

9605 点击 2025-12-08 14:13

浙大00后硕士破局AI记忆难题！新技术让长对话响应速度快十余倍

走上了堪称是“最佳 AI 转型路径”之后，他也在读研期间和合作者针对 AI 记忆开展了一项研究，借此发明出一种名为 LightMem（轻量记忆）的技术。在 LongMemEval 和 LoCoMo 这两个专门用于考察 AI 长期记忆能力的基准测试上，LightMem 回答问题的准确率全面超越之前的冠军模型，最高提升了 7% 以上，在某些数据集上甚至提升了将近 30%。

来自主题: AI技术研报

8401 点击 2025-12-06 11:15

复盘 AI 陪伴消亡史：我们究竟做错了什么？

前两周收到了一条推送信息，微软小冰的 X Eva 将于 2025 年 11 月 30 日停止所有运营服务。

来自主题: AI资讯

9372 点击 2025-11-17 10:19

288亿独角兽！复旦女学霸创业3年，被黄仁勋和苏妈同时押注

3年时间，年收入达2.8亿美元，估值40亿美元。这是AI推理赛道跑出的最快独角兽。2025年10月28日，Fireworks AI宣布完成2.54亿美元C轮融资，由Lightspeed、Index Ventures和Evantic领投，英伟达、AMD、红杉资本、Databricks等跟投。创始人乔琳是PyTorch框架的核心创建者、复旦大学计算机系校友。

来自主题: AI资讯

10110 点击 2025-11-08 11:29

深度｜“长眼睛”的奇多多AI学伴，凭什么能爆卖10000台？

奇多多AI学伴机是由无界方舟发布的国内首款基于「端到端实时多模态互动模型」的AI互动机器人，于本月2025外滩大会首次亮相。京东预售仅上线一周，销量便突破了10000台，在看似红海的儿童早教市场掀起波澜。在功能体验方面，它带来了三大突破：能“看”世界的眼睛、堪比真人的低延迟反馈速度、能“成长”的个性化陪伴感。

来自主题: AI资讯

11253 点击 2025-09-25 11:05

这篇超有用！手把手教你搭建 AI 产品 Evals

AI 下半场，模型评估比模型训练更重要。我们需要从根本上重新思考评估的方式。

来自主题: AI资讯

8940 点击 2025-08-21 16:41