AI资讯新闻榜单内容搜索-模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型
清华联手千问重塑归一化范式,让 Transformer 回归「深度」学习

清华联手千问重塑归一化范式,让 Transformer 回归「深度」学习

清华联手千问重塑归一化范式,让 Transformer 回归「深度」学习

在十九世纪的暹罗王国曾诞生过这样一对连体兄弟:他们分别拥有完整的四肢和独立的大脑,但他们六十余年的人生被腰部相连着的一段不到十厘米的组织带永远绑定在了一起。他们的连体曾带来无尽的束缚,直到他们离开暹罗,走上马戏团的舞台。十年间,两兄弟以近乎合二为一的默契巡演欧美,获得巨大成功。

来自主题: AI技术研报
5939 点击    2026-02-11 13:59
ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

在当今的大模型后训练(Post-training)阶段,DPO(直接偏好优化) 凭借其无需训练独立 Reward Model 的优雅设计和高效性,成功取代 PPO 成为业界的 「版本之子」,被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报
7468 点击    2026-02-11 13:58
AI产品用户留存仅三个月周期?对话王咏刚:“不和AI协作过项目,你就不是合格程序员” | 万有引力

AI产品用户留存仅三个月周期?对话王咏刚:“不和AI协作过项目,你就不是合格程序员” | 万有引力

AI产品用户留存仅三个月周期?对话王咏刚:“不和AI协作过项目,你就不是合格程序员” | 万有引力

从写代码、调模型,到生成内容、驱动产品,AI 正在重新塑造“创造”的方式,也不断逼近一个绕不开的问题:当机器越来越能干,程序员究竟该站在什么位置?

来自主题: AI资讯
8842 点击    2026-02-11 12:36
破案了,Pony Alpha中国制造,小龙逆袭AI Coding

破案了,Pony Alpha中国制造,小龙逆袭AI Coding

破案了,Pony Alpha中国制造,小龙逆袭AI Coding

这两天,一款名为Pony Alpha的模型,凭借在Coding能力上的出色表现,一时间成为了AI圈内最火爆的名字。

来自主题: AI资讯
9133 点击    2026-02-11 12:33
ICLR 2026 | 在Moltbook之外,上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

ICLR 2026 | 在Moltbook之外,上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

ICLR 2026 | 在Moltbook之外,上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

本⽂的主要作者来⾃上海交通⼤学和上海⼈⼯智能实验室,核⼼贡献者包括任麒冰、郑志杰、郭嘉轩,指导⽼师为⻢利庄⽼师和邵婧⽼师,研究⽅向为安全可控⼤模型和智能体。 最近,Moltbook 的爆⽕与随后的迅速

来自主题: AI技术研报
10041 点击    2026-02-11 12:32
小众架构赢麻了!通过编辑功能 LLaDA2.1 让100B扩散模型飙出892 tokens/秒的速度!

小众架构赢麻了!通过编辑功能 LLaDA2.1 让100B扩散模型飙出892 tokens/秒的速度!

小众架构赢麻了!通过编辑功能 LLaDA2.1 让100B扩散模型飙出892 tokens/秒的速度!

谁能想到啊,在自回归模型(Autoregressive,AR)当道的现在,一个非主流架构的模型突然杀了回马枪——被长期视为学术玩具的扩散语言模型,直接在复杂编程任务中飙出了892 tokens/秒的速度!

来自主题: AI资讯
10612 点击    2026-02-11 10:47
比肩OpenAI Simple Codex,中国团队Feeling AI闯入Terminal-Bench全球第二!

比肩OpenAI Simple Codex,中国团队Feeling AI闯入Terminal-Bench全球第二!

比肩OpenAI Simple Codex,中国团队Feeling AI闯入Terminal-Bench全球第二!

就在这个被 Anthropic 和 OpenAI 视为衡量 Agent 真实工程能力全球权威基准 Terminal-Bench 2.0 榜单上,中国团队 Feeling AI 凭借 CodeBrain-1,搭载最新 GPT-5.3-Codex 底座模型,一举冲到 72.9%(70.3%) 并跻身全球排行榜第二,成为榜单前 10 中唯一的中国团队。

来自主题: AI资讯
10951 点击    2026-02-10 18:51
字节发完阿里发!Qwen-Image 2.0火线出击

字节发完阿里发!Qwen-Image 2.0火线出击

字节发完阿里发!Qwen-Image 2.0火线出击

今天,阿里巴巴发布了新一代图像生成基础模型Qwen-Image 2.0,这一模型支持长达一千个token的超长指令、2k分辨率,并采用了更轻量的模型架构,模型尺寸远小于Qwen-Image 2.0的20B,带来更快的推理速度。

来自主题: AI资讯
9778 点击    2026-02-10 18:48
GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力

GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力

GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力

不管Pony Alpha是不是智谱的,下一代旗舰大模型GLM-5都要来了。GLM-5采用了DeepSeek-V3/V3.2架构,包括稀疏注意力机制(DSA)和多Token预测(MTP),总参数量745B,是上一代GLM-4.7的2倍。

来自主题: AI资讯
9367 点击    2026-02-10 16:27