AI资讯新闻榜单内容搜索-大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 大模型
全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

最近,Ai2耶鲁NYU联合推出了一个科研版「Chatbot Arena」——SciArena。全球23款顶尖大模型火拼真实科研任务,OpenAI o3领跑全场,DeepSeek紧追Gemini挤入前四!不过从结果来看,要猜中科研人的偏好,自动评估系统远未及格。

来自主题: AI技术研报
7149 点击    2025-07-11 17:12
打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench

打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench

打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench

当前,大语言模型(LLMs)在编程领域的能力受到广泛关注,相关论断在市场中普遍存在,例如 DeepMind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平

来自主题: AI技术研报
8694 点击    2025-07-11 17:05
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。

来自主题: AI技术研报
6668 点击    2025-07-11 16:23
LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25

LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25

LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25

最新研究发现,模型的规模和通用语言能力与其处理敏感内容的判断能力并无直接关联,甚至开源模型表现的更好。

来自主题: AI技术研报
8506 点击    2025-07-11 16:10
扩散语言模型写代码!速度比自回归快10倍

扩散语言模型写代码!速度比自回归快10倍

扩散语言模型写代码!速度比自回归快10倍

谁说扩散模型只能生成图像和视频?现在它们能高质量地写代码了,速度还比传统大模型更快!Inception Labs推出基于扩散技术的全新商业级大语言模型——Mercury。

来自主题: AI技术研报
7016 点击    2025-07-11 12:02
从Palantir看为什么context可能比模型更重要

从Palantir看为什么context可能比模型更重要

从Palantir看为什么context可能比模型更重要

最终体验 = 模型 + context (包括提示词、文件、代码库、业务数据,MCP服务等等一切喂给模型的东西),正好Andrej karpathy前几天天也整了个新提法叫Context engineering,这里可以碰瓷一下Andrej哈哈,这篇文章好几天前我发在小红书了

来自主题: AI资讯
6921 点击    2025-07-11 09:41
AI情趣娃娃,掏空全球男人钱包

AI情趣娃娃,掏空全球男人钱包

AI情趣娃娃,掏空全球男人钱包

还记得今年最大风口AI与情趣用品市场碰撞出的火花吗?如广东中山的成人玩偶制造商金三玩美(WMDoll),凭借一款接入ChatGPT、Llama等大模型的AI硅胶娃娃MetaBox,惊艳了整个市场。

来自主题: AI资讯
7643 点击    2025-07-10 19:05
大模型「越用越快」!SpeedupLLM首次验证,大降56%推理预算

大模型「越用越快」!SpeedupLLM首次验证,大降56%推理预算

大模型「越用越快」!SpeedupLLM首次验证,大降56%推理预算

LLM用得越久,速度越快!Emory大学提出SpeedupLLM框架,利用动态计算资源分配和记忆机制,使LLM在处理相似任务时推理成本降低56%,准确率提升,为AI模型发展提供新思路。

来自主题: AI技术研报
5092 点击    2025-07-10 12:30
使用最强大语言模型做生物信息怎么样

使用最强大语言模型做生物信息怎么样

使用最强大语言模型做生物信息怎么样

最近一直在测试大模型来做生物信息,效果还可以,主要使用gemini cli,由于一直还有机会用上claude code,所以只能通过cursor来使用claude 4,这次内容我们来测试一下claud4的生物信息能力。

来自主题: AI资讯
6251 点击    2025-07-10 12:29
下一个爱因斯坦,会是具身机器人吗?

下一个爱因斯坦,会是具身机器人吗?

下一个爱因斯坦,会是具身机器人吗?

科学,真的在以它应有的速度不断进步吗? 一位顶尖的医学研究者,毕生致力于攻克癌症,他距离最终的答案或许只差一步。然而,那关键的一步,并非藏匿于医学典籍,而是隐藏在另一门看似毫不相干的学科——材料科学的最新突破之中。

来自主题: AI资讯
6451 点击    2025-07-10 12:07