AI资讯新闻榜单内容搜索-REG

重新定义跨模态生成的流匹配范式，VAFlow让视频「自己发声」

在多模态生成领域，由视频生成音频（Video-to-Audio，V2A）的任务要求模型理解视频语义，还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归（Auto-Regressive）的方式将视频特征作为前缀来逐个生成音频 token，或者以掩码预测（Mask-Prediction）的方式并行地预测音频 token，逐步生成完整音频。

来自主题: AI技术研报

8604 点击 2025-10-31 15:00

超越英伟达Describe Anything！中科院 & 字节联合提出「GAR」，为DeepSeek-OCR添砖加瓦

近期，DeepSeek-OCR提出了“Vision as Context Compression”的新思路，然而它主要研究的是通过模型的OCR能力，用图片压缩文档。

来自主题: AI技术研报

9649 点击 2025-10-28 14:28

多轮Agent训练遇到级联失效？熵控制强化学习来破局

在训练多轮 LLM Agent 时（如需要 30 + 步交互才能完成单个任务的场景），研究者遇到了一个严重的训练不稳定问题：标准的强化学习方法（PPO/GRPO）在稀疏奖励环境下表现出剧烈的熵值震荡，导致训练曲线几乎不收敛。

来自主题: AI技术研报

7620 点击 2025-10-19 12:06

Qwen3 变身扩散语言模型？不从零训练也能跑，30B参数创纪录

扩散语言模型（Diffusion Language Models，DLM）一直以来都令研究者颇感兴趣，因为与必须按从左到右顺序生成的自回归模型（Autoregressive, AR）不同，DLM 能实现并行生成，这在理论上可以实现更快的生成速度，也能让模型基于前后文更好地理解生成语境。

来自主题: AI技术研报

7575 点击 2025-10-15 14:00

7 小时连续重构不掉线！一骑绝尘的Claude 终于遇到对手：Greg Brockman亲自解读AI编程重大突破

9 月 16 日，OpenAI 正式推出一款新模型 GPT-5-Codex ，这是一个经过微调的 GPT-5 变体，专门为其各种 AI 辅助编程工具而设计。该公司表示，新模型 GPT-5-Codex 的“思考”时间比之前的模型更加动态，完成一项编码任务所需的时间从几秒到七个小时不等。因此，它在代理编码基准测试中表现更佳。

来自主题: AI技术研报

9413 点击 2025-09-18 15:19

动动念头就能操作手机！MIT意念控制设备，不动嘴不动手，“读心”准确率92%

不动嘴不动手，只靠意念就能对手机发号施令？

来自主题: AI资讯

10816 点击 2025-09-10 12:23

开学 AI 大礼包：OpenAI谷歌微软免费课程，从入门到精通，还有实战模板

现在做 AI 课程的，不计其数，吴恩达、Andrej Karpathy，Greg Isenberg 等人更是大神下凡支教。高校如斯坦福、MIT、哈佛等也有公开课资源。

来自主题: AI资讯

9453 点击 2025-09-03 11:53

巨头收购a16z投资的AI初创企业，团队来自Palantir和Oracle

Salesforce近日官宣收购Regrello，这是一家专注于制造业和供应链的自动化工作流公司，也可以定位为AI驱动的制造业运营编排平台，核心技术是将非结构化业务数据转化为动态的自动化工作流。

来自主题: AI资讯

11631 点击 2025-08-21 15:13

dLLM的「Free Lunch」！浙大&蚂蚁利用中间结果显著提升扩散语言模型

近年来，扩散大语言模型（Diffusion Large Language Models, dLLMs）正迅速崭露头角，成为文本生成领域的一股新势力。与传统自回归（Autoregressive, AR）模型从左到右逐字生成不同，dLLM 依托迭代去噪的生成机制，不仅能够一次性生成多个 token，还能在对话、推理、创作等任务中展现出独特的优势。

来自主题: AI技术研报

9076 点击 2025-08-20 16:26

GPT-5首次会推理，OpenAI联创曝AGI秘诀！超临界学习吞噬算力，2045金钱无用？

GPT-5是一个分水岭，终于学会了「推理」。联创Greg Brockman最新访谈畅谈了OpenAI AGI之路，未来AI可以做到边用边学，在超临界模式下推导出N阶后果。

来自主题: AI资讯

7611 点击 2025-08-18 11:26