AI资讯新闻榜单内容搜索-eva

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: eva
GLM-5.1上线,编程表现贴Opus 4.6开大,Coding plan瞬间断货

GLM-5.1上线,编程表现贴Opus 4.6开大,Coding plan瞬间断货

GLM-5.1上线,编程表现贴Opus 4.6开大,Coding plan瞬间断货

智谱GLM-5.1,突然上线!别的没再多说,只是默默甩出Coding Evaluation评测结果——在编程能力上相比上一代GLM-5直接飙升近10分。甚至嘛,距全球最强编程模型Claude Opus 4.6,也就只有2.6分之差??

来自主题: AI产品测评
7931 点击    2026-03-29 11:06
打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来

打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来

打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来

近期,利用视频生成模型为机器人构建 “世界模型”,已成为具身智能领域的热门技术路线。给定当前观测和自然语言指令,这类模型能够先 “想象” 出未来的视觉轨迹,再由逆动力学模型(IDM)将生成画面解码为机器人动作,从而形成 “先预测、后执行” 的解耦式规划范式。由于兼具较强的可解释性与开放场景泛化潜力,这一路线正在受到学术界和工业界的广泛关注。

来自主题: AI技术研报
8274 点击    2026-03-28 09:50
ICLR 2026 | 阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师

ICLR 2026 | 阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师

ICLR 2026 | 阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师

来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval,旨在通过长文本、高信息密度的 T2I prompt 设计,以及围绕空间感知

来自主题: AI技术研报
9905 点击    2026-02-22 11:17
能聊健康≠懂医疗:医疗AI助手爆火一年,“专业断层”比想象中大

能聊健康≠懂医疗:医疗AI助手爆火一年,“专业断层”比想象中大

能聊健康≠懂医疗:医疗AI助手爆火一年,“专业断层”比想象中大

基于真实居民健康档案构建的MedLLM-EHR-EVAL-V2评测集显示,星火医疗大模型在智能健康分析、报告解读、运动饮食建议、辅助诊疗、智能用药审核等关键任务上,得分均显著超越国内外主流大模型。

来自主题: AI资讯
9393 点击    2026-02-14 10:24
给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

文本摘要作为自然语言处理(NLP)的核心任务,其质量评估通常需要兼顾一致性(Consistency)、连贯性(Coherence)、流畅性(Fluency)和相关性(Relevance)等多个维度。

来自主题: AI技术研报
9202 点击    2026-02-10 14:11
美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局

美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局

美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局

近日,美团推出全新多模态统一大模型方案 STAR(STacked AutoRegressive Scheme for Unified Multimodal Learning),凭借创新的 "堆叠自回归架构 + 任务递进训练" 双核心设计,实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。

来自主题: AI技术研报
10797 点击    2026-02-05 13:50
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估

解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估

解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估

香港大学(The University of Hong Kong)与 Adobe Research 联合发布 Self-E(Self-Evaluating Model):一种无需预训练教师蒸馏、从零开始训练的任意步数文生图框架。其目标非常直接:让同一个模型在极少步数也能生成语义清晰、结构稳定的图像,同时在 50 步等常规设置下保持顶级质量,并且随着步数增加呈现单调提升。

来自主题: AI技术研报
8837 点击    2026-01-18 14:57
Anthropic发布万字长文:系统化评估 AI Agents 的工程方法

Anthropic发布万字长文:系统化评估 AI Agents 的工程方法

Anthropic发布万字长文:系统化评估 AI Agents 的工程方法

如果你在做 AI Agent 开发,大概率已经发现一件事: Agent 几乎是传统软件测试方法的反例。

来自主题: AI技术研报
10427 点击    2026-01-13 10:19
最高月费69.99美元,国内AI社交迎来最强商业化玩家?

最高月费69.99美元,国内AI社交迎来最强商业化玩家?

最高月费69.99美元,国内AI社交迎来最强商业化玩家?

在 11 月 6 日,「LoveyDovey」宣布开启中文版本“不计费内测”,在小红书获得了超过千条积极反馈。而同样是在 11 月,小冰旗下「X Eva」、美团旗下「Wow」两款 AI 社交应用相继传出停服消息。两相对照,行业所处的分化阶段清晰可见,有的产品挣扎退场,有的产品却在全球范围继续扩张。

来自主题: AI资讯
9069 点击    2025-12-09 16:37
DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

近日,由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models(检测情感动态轨迹:大语言模型情感支持的评估框架)》论文,获 AAAI 2026 录用。

来自主题: AI技术研报
9147 点击    2025-12-08 14:13