AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网最近,谷歌AI Studio上的一个神秘模型不仅成功识别了200多年前一位商人的「天书」账本,而且还修正了里面的格式错误和模糊表述,展现出的推理能力令历史学家震惊。
最近,谷歌AI Studio上的一个神秘模型不仅成功识别了200多年前一位商人的「天书」账本,而且还修正了里面的格式错误和模糊表述,展现出的推理能力令历史学家震惊。
当好莱坞还在为预算头疼时,硅谷的AI、韩国的IP和中东的资本已经悄然联手,他们的目标是用一个全新的「导演级AI」物种,彻底重塑电影工业。
11 月 3 日,据 Deadline 报道,AI 原生影视工作室 Utopai Studios 与全球创新投资平台 Stock Farm Road(SFR)宣布成立资本规模达数十亿美元的合资公司 Utopai East,以加速韩国影视的国际化进程。SFR 背后,一面是 LG 集团继承人 Brian Koo,另一面是阿联酋主权基金推动者 Amin Badr-El-Din。
在多模态生成领域,由视频生成音频(Video-to-Audio,V2A)的任务要求模型理解视频语义,还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归(Auto-Regressive)的方式将视频特征作为前缀来逐个生成音频 token,或者以掩码预测(Mask-Prediction)的方式并行地预测音频 token,逐步生成完整音频。
给歌曲做MV,现在已经是一个AI就能搞定的时代了。 来,请欣赏用AI给神曲《八方来财》做的东方赛博朋克MV:
英伟达桌面超算,邪修玩法来了!两台DGX Spark串联一台苹果Mac Studio,就能让大模型推理速度提升至2.77倍。
在这一背景下,清华大学与生数科技(Shengshu AI)团队围绕桥类生成模型与音频超分任务展开系统研究,先后在语音领域顶级会议ICASSP 2025和机器学习顶级会议NeurIPS 2025发表了两项连续成果:
终于,Nano Banana正式开放API了! 现在大家不仅可以直接在Google AI Studio里基于Nano Banana,手动搓出属于自己的App,还可以通过Gemini API接入任意发挥了。
不用在建模、UV、贴图软件之间反复横跳,一个工作台就能得到:这是腾讯专为3D设计师、游戏开发者、建模师等打造的专业级AI工作台混元3D Studio。
这一瓶颈如今被打破。小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,它基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化,并在预训练观察到明显的“涌现”行为。