霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+
霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+一张人像、一段音频参考,就能让霉霉在你面前唱碧昂丝的《Halo》。
一张人像、一段音频参考,就能让霉霉在你面前唱碧昂丝的《Halo》。
Alembic首次推出用于企业数据分析和决策支持的无「幻觉」人工智能。
当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。
2024 年 5 月,DreamTech 官宣了其高质量 3D 生成大模型 Direct3D,并公开了相关学术论文 Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer。
GPT-4o掀起一股全模态(Omni-modal)热潮,去年的热词多模态仿佛已经不够看了。
AGI太遥远,只有模型降价是共识。
什么是 AGI?大模型和 Scaling Law 是其实现基座吗?怎么看价格战?四家大模型公司给出了自己的答案。
训练数据的数量和质量,对LLM性能的重要性已经是不言自明的事实。然而,Epoch AI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水,他们预测,互联网上可用的人类文本数据将在四年后,即2028年耗尽。
谷歌DeepMind开发的AlphaFold一夜之间颠覆了生物学,这一革命性的突破背后,有一支怎样的团队?AlphaFold的缔造者之一、DeepMind研究副总裁分享了成功的秘密——如何组建一个团队来应对这一巨大的跨学科挑战并取得胜利。
刚刚,英伟达全新发布的开源模型Nemotron-4 340B,有可能彻底改变训练LLM的方式!从此,或许各行各业都不再需要昂贵的真实世界数据集了。而且,Nemotron-4 340B直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,甚至可以和GPT-4掰手腕!