汤晓鸥弟子带队:免调优长视频生成,可支持512帧!任何扩散模型都能用|ICLR'24
汤晓鸥弟子带队:免调优长视频生成,可支持512帧!任何扩散模型都能用|ICLR'24想要AI生成更长的视频?现在,有人提出了一个效果很不错的免调优方法,直接就能作用于预训练好的视频扩散模型。
搜索
想要AI生成更长的视频?现在,有人提出了一个效果很不错的免调优方法,直接就能作用于预训练好的视频扩散模型。
来自南洋理工大学、上海AI实验室等机构的研究人员,共同推出了新款文生3D基础模型3DTopia。只需要一组文本,它就可以在5分钟内生成出多样化、高精度的3D模型。
大语言模型和其他新的AI方法的出现将如何重塑你的行业,领导者应该如何做好准备?我们的讨论重点是AI对美国医疗保健行业的影响,但我们的广泛观点适用于每一个与数字革命新阶段搏斗的复杂生态系统。
本文对思维链的推理步长进行了控制变量实验,发现推理步长和答案的准确性是线性相关的,这种影响机制甚至超越了问题本身所产生的差异。
具身智能,首先就是要共用 AI。
两年的时间见证了DeepMind基于AlphaFold建立Isomorphic Lab,微软建立AI4Science Initiative, 以及国内深势科技,AISI等大力推动AI4Science建设的企业,学术机构的不断发展壮大。
OpenAI董事会的Adam D'Angelo被曝曾邀请竞争对手加入董事会,Altman的地位又危险了,而另一方面,谷歌似乎被OpenAI压得喘不过气
谷歌Chrome最新更新!添加3个由AI驱动的新功能,方便程度Max。
2023 ACM Fellow正式揭榜!今年共有68人评选为ACM Fellow,图灵奖三巨头,万维网之父位列其中。另外,清华马维英、微软高剑峰等14位华人纷纷入选。
爆肝7个月,谷歌祭出了AI视频大模型Lumiere,直接改变了游戏规则!全新架构让视频时长和一致性全面飞升,时长直接碾压Gen-2和Pika。
MIT计算机科学与人工智能实验室(CSAIL)的一项研究发现:不用担心视觉AI会很快淘汰人类打工人,因为对于企业来说,它们实在是太贵了。
近日,小米集团新一代 Kaldi 团队关于语音识别声学模型的论文《Zipformer: A faster and better encoder for automatic speech recognition》被 ICLR 2024 接收为 Oral (Top 1.2%)。
作为全球最顶级的机器学习工具库,Hugging Face上最近悄悄出现了一个新的transformers模型——Qwen2。没错,正是阿里通义千问Qwen模型的第二代。不过通义团队的算法同学在社交媒体上对此继续保持神秘。
距离上次推出的 v0.4.0 大版本的三周后,我们又再次迎来了重大的更新 — v0.5.0!在这个最新版本中,我们隆重推出了 AI Agent 能力。
2023年12月,由Proxima工作室开发的AI游戏Suck Up! 横空出世,凭借有嘴就能玩的超低门槛和富有直播效果的魔性片段在youtube上引起了大量关注。
2023年11月,OpenAI在首届开发者大会上推出了GPTs和Assitant API,不仅改写了AI Agent的构建范式,也把AI智能体的应用推向一个新高潮。
不久前,AI新光年与知衣科技创始人兼CEO郑泽宇就“人工智能如何改变服装行业”的话题进行了一次探讨。2024年伊始,这位年轻的AI高级工程师做完了2023年复盘,也做好了新一年的规划。
今天简单介绍下AI封神榜大片的工作流和用的AI工具。
4天卖出600万份,爆火游戏《幻兽帕鲁》最高180万人同时在线,直接登顶。
AI虚拟女友究竟能带来多少实际产出?一个月3万美金。(约合人民币21.4万元)
Pika北大斯坦福联手,开源最新文本-图像生成/编辑框架!
现在,通过文本提示和一个 2D 边界框,我们就能在 3D 场景中生成对象。
目标跟踪是计算机视觉的一项基础视觉任务,由于计算机视觉的快速发展,单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性,我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷,以实现复杂环境下全天候目标跟踪。
去年,在加速大语言模型推理层面,我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今,关于 Medusa 终于有了完整技术论文,还提供了新的版本。
疫情复苏之后的第二年,CES再次成为了观察未来趋势的最佳窗口,AI应用成为一条观察CES 2024新趋势的天然主线。
根据消息人士曝料,微软调集了各组中的精英,组建了一支新的AI团队,专攻小模型,希望能够摆脱对于OpenAI的依赖。
前两天,一个来自小红书的大佬发了个新项目——InstantID,是用一张你的随意角度的照片,就能生成一个 AI 头像。
前几天的 2024 达沃斯世界经济论坛上,Sam Altman 谈到了 GPT 发展的一些新的方向及可能性,对于当下大模型的一些现状的分析。
绝大多数AI生图模型在训练的时候侧重的是文本和图形之间的关联,并不擅长语义分析和复杂元素处理。