AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5的技术报告正式发布!报告提出统一的3D-Resampler架构实现高密度视频压缩、面向文档的统一OCR和知识学习范式、可控混合快速/深度思考的多模态强化学习三大技术。

来自主题: AI技术研报
6613 点击    2025-09-24 10:52
无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

自 Sora 亮相以来,AI 视频的真实感突飞猛进,但可控性仍是瓶颈:模型像才华横溢却随性的摄影师,难以精准执行 “导演指令”。我们能否让 AI 做到: 仅凭一张静态照片,就能 “脑补” 出整个 3D

来自主题: AI技术研报
5423 点击    2025-09-24 09:56
庞若鸣还有苹果论文?改善预训练高质量数据枯竭困境

庞若鸣还有苹果论文?改善预训练高质量数据枯竭困境

庞若鸣还有苹果论文?改善预训练高质量数据枯竭困境

数月前,苹果基础模型团队负责人、杰出工程师庞若鸣(Ruoming Pang)离职加入 Meta。扎克伯格豪掷两亿美元招揽庞若鸣加入超级智能团队。根据庞若鸣的领英信息,他已在 Meta 工作了大约三个月的时间。

来自主题: AI技术研报
7135 点击    2025-09-24 09:54
Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞

Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞

Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞

在 AI 辅助编程领域,Anthropic 推出的 Claude Code 命令行工具已成为开发者常用的助手。它允许从终端直接调用 Claude Sonnet 等模型,处理脚本编写、代码调试和系统命令执行等任务。

来自主题: AI技术研报
5546 点击    2025-09-24 09:53
Depth Anything再出新作!浙大&港大出品:零样本,优化任意深度图

Depth Anything再出新作!浙大&港大出品:零样本,优化任意深度图

Depth Anything再出新作!浙大&港大出品:零样本,优化任意深度图

浙江大学与港大团队推出「Prior Depth Anything」,把稀疏的深度传感器数据与AI完整深度图融合,一键补洞、降噪、提分辨率,让手机、车载、AR眼镜都能实时获得精确三维视觉。无需额外训练,就能直接提升VGGT等3D模型的深度质量,零样本刷新多项深度补全、超分、修复纪录。

来自主题: AI技术研报
6321 点击    2025-09-24 09:52
GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o

GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o

GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o

浙江大学与通义实验室Mobile-Agent团队在UI-R1的基础上,推出全新研究成果——UI-S1,提出了一种名为半在线强化学习(Semi-online Reinforcement Learning)的创新训练范式。

来自主题: AI技术研报
5982 点击    2025-09-24 09:49
帮你把Agent从玩具变成产品,Google发布重磅指南,3章内容填平生产化鸿沟

帮你把Agent从玩具变成产品,Google发布重磅指南,3章内容填平生产化鸿沟

帮你把Agent从玩具变成产品,Google发布重磅指南,3章内容填平生产化鸿沟

谷歌云刚发布了一篇《Google Cloud Startup technical guide: Al agents》(Google Cloud 创业公司技术指南:AI 代理)这是一份非常详尽和全面的手册,这篇文档要解决的问题:原型到生产之间最大鸿沟,Agent的非确定性、复杂推理轨迹如何验证、如何部署与运维等。初创公司业务负责人或开发者看完后能获得一个系统性的、

来自主题: AI技术研报
7611 点击    2025-09-23 16:35
故意“装菜”答错问题,AI已能识别自己“正在被测试”丨OpenAI新研究

故意“装菜”答错问题,AI已能识别自己“正在被测试”丨OpenAI新研究

故意“装菜”答错问题,AI已能识别自己“正在被测试”丨OpenAI新研究

OpenAI携手APOLLO的新研究发现,大模型会对指令阳奉阴违,为了达成目的故意答错问题、暗中修改数据或者操作记录来掩盖自己的违规行为……比如,o3模型在化学测试中,通过推理得出如果正确率超过50%将不会被部署的结论后,

来自主题: AI技术研报
8138 点击    2025-09-23 16:34
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。

来自主题: AI技术研报
6105 点击    2025-09-23 14:59
快手解密「AI印钞机」,首提生成式强化学习出价技术,为平台实现超过3%的广告收入提升

快手解密「AI印钞机」,首提生成式强化学习出价技术,为平台实现超过3%的广告收入提升

快手解密「AI印钞机」,首提生成式强化学习出价技术,为平台实现超过3%的广告收入提升

CBD 算法则是快手商业化算法团队在本月初公布的新方法,全名 Causal auto-Bidding method based on Diffusion completer-aligner,即基于扩散式补全器-对齐器的因果自动出价方法。

来自主题: AI技术研报
5110 点击    2025-09-23 13:29