AI资讯新闻榜单内容搜索-Udio

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Udio
Utopai联手LG、中东主权基金加码韩娱,新模型颠覆AI视频格局!

Utopai联手LG、中东主权基金加码韩娱,新模型颠覆AI视频格局!

Utopai联手LG、中东主权基金加码韩娱,新模型颠覆AI视频格局!

11 月 3 日,据 Deadline 报道,AI 原生影视工作室 Utopai Studios 与全球创新投资平台 Stock Farm Road(SFR)宣布成立资本规模达数十亿美元的合资公司 Utopai East,以加速韩国影视的国际化进程。SFR 背后,一面是 LG 集团继承人 Brian Koo,另一面是阿联酋主权基金推动者 Amin Badr-El-Din。

来自主题: AI资讯
8709 点击    2025-11-08 15:52
重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

在多模态生成领域,由视频生成音频(Video-to-Audio,V2A)的任务要求模型理解视频语义,还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归(Auto-Regressive)的方式将视频特征作为前缀来逐个生成音频 token,或者以掩码预测(Mask-Prediction)的方式并行地预测音频 token,逐步生成完整音频。

来自主题: AI技术研报
7627 点击    2025-10-31 15:00
我拿AI给神曲《八方来财》做了个MV,真的好魔性!

我拿AI给神曲《八方来财》做了个MV,真的好魔性!

我拿AI给神曲《八方来财》做了个MV,真的好魔性!

给歌曲做MV,现在已经是一个AI就能搞定的时代了。 来,请欣赏用AI给神曲《八方来财》做的东方赛博朋克MV:

来自主题: AI资讯
6330 点击    2025-10-21 15:27
清华大学x生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

清华大学x生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

清华大学x生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

在这一背景下,清华大学与生数科技(Shengshu AI)团队围绕桥类生成模型与音频超分任务展开系统研究,先后在语音领域顶级会议ICASSP 2025和机器学习顶级会议NeurIPS 2025发表了两项连续成果:

来自主题: AI技术研报
8458 点击    2025-10-13 10:30
Nano Banana新增2大功能,还开放API了,一张图不到3毛钱

Nano Banana新增2大功能,还开放API了,一张图不到3毛钱

Nano Banana新增2大功能,还开放API了,一张图不到3毛钱

终于,Nano Banana正式开放API了! 现在大家不仅可以直接在Google AI Studio里基于Nano Banana,手动搓出属于自己的App,还可以通过Gemini API接入任意发挥了。

来自主题: AI资讯
8063 点击    2025-10-03 16:21
腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光

腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光

腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光

不用在建模、UV、贴图软件之间反复横跳,一个工作台就能得到:这是腾讯专为3D设计师、游戏开发者、建模师等打造的专业级AI工作台混元3D Studio。

来自主题: AI技术研报
10442 点击    2025-09-23 10:11
小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

这一瓶颈如今被打破。小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,它基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化,并在预训练观察到明显的“涌现”行为。

来自主题: AI资讯
8713 点击    2025-09-21 19:22
3D生成到达3.0阶段,不止提升行业渗透率,也正催生3D原生新玩法 | 对话3D生成平台Tripo

3D生成到达3.0阶段,不止提升行业渗透率,也正催生3D原生新玩法 | 对话3D生成平台Tripo

3D生成到达3.0阶段,不止提升行业渗透率,也正催生3D原生新玩法 | 对话3D生成平台Tripo

作为AI驱动的3D建模平台,Tripo(https://www.tripo3d.ai)已在全球覆盖超300万专业开发者,AI 3D原生模型数量超过4000万,中小用户超4万,并推出了一站式AI 3D工作台Tripo Studio

来自主题: AI资讯
8982 点击    2025-09-21 11:11
刚刚!阿里发新模型,幻觉率爆降70%

刚刚!阿里发新模型,幻觉率爆降70%

刚刚!阿里发新模型,幻觉率爆降70%

智东西9月15日报道,今天,阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块,针对性优化了“幻觉”、“串语种”等关键问题,在高噪声的场景下,幻觉率从78.5%下降至10.7%,下降幅度接近70%。

来自主题: AI技术研报
8679 点击    2025-09-16 11:23