AI资讯新闻榜单内容搜索-eva

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: eva
浙大00后硕士破局AI记忆难题!新技术让长对话响应速度快十余倍

浙大00后硕士破局AI记忆难题!新技术让长对话响应速度快十余倍

浙大00后硕士破局AI记忆难题!新技术让长对话响应速度快十余倍

走上了堪称是“最佳 AI 转型路径”之后,他也在读研期间和合作者针对 AI 记忆开展了一项研究,借此发明出一种名为 LightMem(轻量记忆)的技术。在 LongMemEval 和 LoCoMo 这两个专门用于考察 AI 长期记忆能力的基准测试上,LightMem 回答问题的准确率全面超越之前的冠军模型,最高提升了 7% 以上,在某些数据集上甚至提升了将近 30%。

来自主题: AI技术研报
8003 点击    2025-12-06 11:15
复盘 AI 陪伴消亡史:我们究竟做错了什么?

复盘 AI 陪伴消亡史:我们究竟做错了什么?

复盘 AI 陪伴消亡史:我们究竟做错了什么?

前两周收到了一条推送信息,微软小冰的 X Eva 将于 2025 年 11 月 30 日停止所有运营服务。

来自主题: AI资讯
8601 点击    2025-11-17 10:19
288亿独角兽!复旦女学霸创业3年,被黄仁勋和苏妈同时押注

288亿独角兽!复旦女学霸创业3年,被黄仁勋和苏妈同时押注

288亿独角兽!复旦女学霸创业3年,被黄仁勋和苏妈同时押注

3年时间,年收入达2.8亿美元,估值40亿美元。这是AI推理赛道跑出的最快独角兽。2025年10月28日,Fireworks AI宣布完成2.54亿美元C轮融资,由Lightspeed、Index Ventures和Evantic领投,英伟达、AMD、红杉资本、Databricks等跟投。创始人乔琳是PyTorch框架的核心创建者、复旦大学计算机系校友。

来自主题: AI资讯
9437 点击    2025-11-08 11:29
深度|“长眼睛”的奇多多AI学伴,凭什么能爆卖10000台?

深度|“长眼睛”的奇多多AI学伴,凭什么能爆卖10000台?

深度|“长眼睛”的奇多多AI学伴,凭什么能爆卖10000台?

奇多多AI学伴机是由无界方舟发布的国内首款基于「端到端实时多模态互动模型」的AI互动机器人,于本月2025外滩大会首次亮相。京东预售仅上线一周,销量便突破了10000台,在看似红海的儿童早教市场掀起波澜。在功能体验方面,它带来了三大突破:能“看”世界的眼睛、堪比真人的低延迟反馈速度、能“成长”的个性化陪伴感。

来自主题: AI资讯
8825 点击    2025-09-25 11:05
这篇超有用!手把手教你搭建 AI 产品 Evals

这篇超有用!手把手教你搭建 AI 产品 Evals

这篇超有用!手把手教你搭建 AI 产品 Evals

AI 下半场,模型评估比模型训练更重要。我们需要从根本上重新思考评估的方式。

来自主题: AI资讯
8415 点击    2025-08-21 16:41
大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷

大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷

大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷

大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。

来自主题: AI技术研报
7614 点击    2025-08-17 13:16
中国在AI领域超越美国已是板上钉钉?吴恩达:美国无法保持领先

中国在AI领域超越美国已是板上钉钉?吴恩达:美国无法保持领先

中国在AI领域超越美国已是板上钉钉?吴恩达:美国无法保持领先

中国在人工智能领域已经成为全球竞争的重要力量。根据斯坦福 2025 年 AI 指数报告,美国虽然仍领先于顶级模型数量,但中国正在迅速缩小差距 —— 在 MMLU、HumanEval 等基准测试中的差距已从几乎双位数下降到几乎持平。

来自主题: AI资讯
8323 点击    2025-08-01 16:12
EvaLearn:AI下半场的全新评测范式!

EvaLearn:AI下半场的全新评测范式!

EvaLearn:AI下半场的全新评测范式!

在三个月前,OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。他在博客中指出,AI 研究正在从 “能不能做” 转向 “学得是否有效”,传统的基准测试已经难以衡量 AI 的实际效用,他指出现有的评估方式中,模型被要求独立完成每个任务,然后取平均得分。这种方式忽略了任务之间的连贯性,无法评估模型长期适应能力和更类人的动态学习能力。

来自主题: AI技术研报
7941 点击    2025-07-29 10:54
ICML2025|清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval

ICML2025|清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval

ICML2025|清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval

大语言模型(Large Language Models,LLMs)技术的迅猛发展,正在深刻重塑医疗行业。医疗领域正成为这一前沿技术的 “新战场” 之一。大模型具备强大的文本理解与生成能力,能够快速读取医学文献、解读病历记录,甚至基于患者表述生成初步诊断建议,有效辅助医生提升诊断的准确性与效率。

来自主题: AI技术研报
7503 点击    2025-07-23 13:25
AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab

AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab

AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab

给AI一场压力测试,结果性能暴跌近30%。 来自上海人工智能实验室、清华大学和中国人民大学的研究团队设计了一个全新的“压力测试”框架——REST (Reasoning Evaluation through Simultaneous Testing)。

来自主题: AI技术研报
10302 点击    2025-07-21 10:44