AI资讯新闻榜单内容搜索-泛化

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 泛化

AIGC检测为何频频“看走眼”？腾讯优图揭秘：问题可能出在数据源头

AIGC检测为何频频“看走眼”？腾讯优图揭秘：问题可能出在数据源头

AIGC检测为何频频“看走眼”？腾讯优图揭秘：问题可能出在数据源头

近日，腾讯优图实验室联合华东理工大学、北京大学等研究团队在A生成图像检测（AI-Generated Image Detection）泛化问题上展开研究，提出Dual Data Alignment（双重数据对齐，DDA）方法，从数据层面系统性抑制“偏差特征”，显著提升检测器在跨模型、跨数据域场景下的泛化能力。

来自主题: AI技术研报

7698 点击 2025-11-30 15:10

突破视觉-语言-动作模型的瓶颈：QDepth-VLA让机器人拥有更精准的3D空间感知

突破视觉-语言-动作模型的瓶颈：QDepth-VLA让机器人拥有更精准的3D空间感知

突破视觉-语言-动作模型的瓶颈：QDepth-VLA让机器人拥有更精准的3D空间感知

视觉-语言-动作模型（VLA）在机器人操控领域展现出巨大潜力。通过赋予预训练视觉-语言模型（VLM）动作生成能力，机器人能够理解自然语言指令并在多样化场景中展现出强大的泛化能力。然而，这类模型在应对长时序或精细操作任务时，仍然存在性能下降的现象。

来自主题: AI技术研报

10703 点击 2025-11-27 09:48

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

长期以来，多模态代码生成（Multimodal Code Generation）的训练严重依赖于特定任务的监督微调（SFT）。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功，但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力，阻碍了通用视觉代码智能（Generalized VIsioN Code Intelligence）的发展。

来自主题: AI技术研报

9996 点击 2025-11-17 14:32

只演示一次，机器人就会干活了？北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗

只演示一次，机器人就会干活了？北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗

只演示一次，机器人就会干活了？北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗

近日，来自北京大学与BeingBeyond的研究团队提出DemoHLM框架，为人形机器人移动操作（loco-manipulation）领域提供一种新思路——仅需1次仿真环境中的人类演示，即可自动生成海量训练数据，实现真实人形机器人在多任务场景下的泛化操作，有效解决了传统方法依赖硬编码、真实数据成本高、跨场景泛化差的核心痛点。

来自主题: AI技术研报

9061 点击 2025-11-14 09:44

NeurIPS 2025 Spotlight | 你刷到的视频是真的么？用物理规律拆穿Sora谎言

NeurIPS 2025 Spotlight | 你刷到的视频是真的么？用物理规律拆穿Sora谎言

NeurIPS 2025 Spotlight | 你刷到的视频是真的么？用物理规律拆穿Sora谎言

随着生成式 AI（如 Sora）的发展，合成视频几乎可以以假乱真，带来了深度伪造与虚假信息传播的风险。现有检测方法多依赖表层伪影或数据驱动学习，难以在高质量生成视频中保持较好的泛化能力。其根本原因在于，这些方法大都未能充分利用自然视频所遵循的物理规律，挖掘自然视频的更本质的特征。

来自主题: AI技术研报

9876 点击 2025-11-06 09:39

具身智能一步踏入Scaling Law！10B+基础模型，27万小时真实数据

具身智能一步踏入Scaling Law！10B+基础模型，27万小时真实数据

具身智能一步踏入Scaling Law！10B+基础模型，27万小时真实数据

当前机器人领域，基础模型主要基于「视觉-语言预训练」，这样可将现有大型多模态模型的语义泛化优势迁移过来。但是，机器人的智能确实能随着算力和数据的增加而持续提升吗？我们能预测这种提升吗？

来自主题: AI技术研报

7887 点击 2025-11-05 16:42

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练，可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据，结合稀疏推理（Sparse-Thinking）与衰减持续损失（decaying continual loss），大幅提升了智能体的可扩展性和泛化性。

来自主题: AI技术研报

9028 点击 2025-11-01 09:42

刚刚，最佳VLA模型GigaBrain-0开源：世界模型驱动10倍数据，真机碾压SOTA

刚刚，最佳VLA模型GigaBrain-0开源：世界模型驱动10倍数据，真机碾压SOTA

刚刚，最佳VLA模型GigaBrain-0开源：世界模型驱动10倍数据，真机碾压SOTA

国内首个利用世界模型生成数据实现真机泛化的端到端VLA具身基础模型GigaBrain-0重磅发布。

来自主题: AI技术研报

6395 点击 2025-10-29 18:14

均值至上假繁荣！北大新作专挑难题，逼出AI模型真本事

均值至上假繁荣！北大新作专挑难题，逼出AI模型真本事

均值至上假繁荣！北大新作专挑难题，逼出AI模型真本事

大模型后训练的痛点：均值优化忽略低概率高信息路径，导致推理能力停滞。RiskPO双管齐下，MVaR目标函数推导梯度估计，多问题捆绑转化反馈，实验中Geo3K准确率54.5%，LiveCodeBench Pass@1提升1%，泛化能力强悍。

来自主题: AI技术研报

8014 点击 2025-10-25 14:32

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人，是机器人学领域一个长期追逐的圣杯。近年来，随着大型语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，许多研究者将希望寄托于视觉 - 语言 - 动作（VLA）模型，期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。

来自主题: AI技术研报

9106 点击 2025-10-13 11:02

上一页当前第4页,共18页下一页