
杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!AI圈这遍地开花的大好局面,让吃瓜群众们甚是惊喜。
AI圈这遍地开花的大好局面,让吃瓜群众们甚是惊喜。
OpenAI和谷歌接连两场发布会,把AI视频推理卷到新高度。 但业界还缺少可以全面评估大模型视频推理能力的基准。 终于,多模态大模型视频分析综合评估基准Video-MME,全面评估多模态大模型的综合视频理解能力,填补了这一领域的空白。
谷歌DeepMind开发的AlphaFold一夜之间颠覆了生物学,这一革命性的突破背后,有一支怎样的团队?AlphaFold的缔造者之一、DeepMind研究副总裁分享了成功的秘密——如何组建一个团队来应对这一巨大的跨学科挑战并取得胜利。
6 月 11 日的 WWDC,所有人的关注重点都在 Apple 的 AI 功能如何落地上,在经历了前一个小时的各种系统更新的介绍后(甚至包括 iPad 上发布计算器),总算是等来了 Apple 的 AI 大更新,虽说与之前的预测文章所差无几,但还是有颇多亮点。
WWDC 上,苹果终于发布了自己的 AI 功能——苹果智能(Artificial Intelligence),苹果、微软和谷歌在 AI 落地上的不同策略也可见一斑,有些选择集成,有些选择了模块化。 为什么会这么选?哪种策略可能赢得未来?
OpenAI在5月14日推出了新一代人工智能模型GPT-4o,支持文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出。仅仅一天后,谷歌就在新一届I/O开发者大会上发布、更新了十多款产品,包括AI助手Project Astra、文生图模型Imagen3、对标Sora的文生视频模型Veo,以及备受瞩目的大模型Gemini 1.5 Pro的升级版。
在大语言模型突飞猛进的同时,谷歌的研究团队在时序预测方面也取得了突破性的成果——今年2月发表的模型TimesFM,而且放出了模型的代码和权重,让更多开发者体验这种「开箱即用」的零样本预测能力。
上周末在推特平台上有一篇写在谷歌文档里短文,在国外的科技/投资圈得到了非常广泛的浏览,叫做 The End of Software ( 软件的终结 ), 作者 Chris Paik 是位于纽约市的风险投资基金 Pace Capital 的创始合伙人,他之前同样在谷歌文档里总结的自己的投资框架也得到广泛的阅读。
OpenAI自研芯片的计划终于看到了实质性进展。根据SemiAnalysis最近的一篇文章,他们正从谷歌TPU团队招募人才,扩展自己的芯片研发组。
各行业的职场人,都有机会DIY专属自己的AI助手