
100镜实测即梦3.0新功能“看图改图”,一致性精细到头发丝级了
100镜实测即梦3.0新功能“看图改图”,一致性精细到头发丝级了前段时间,我们横向对比了即梦3.0、2.1、GPT4o的海报生成能力, 当时即梦3.0的文生图中文能力就已经超过了 GPT4o,我们通过提示语就可以控制字体的样式、位置、大小、排版等等。
前段时间,我们横向对比了即梦3.0、2.1、GPT4o的海报生成能力, 当时即梦3.0的文生图中文能力就已经超过了 GPT4o,我们通过提示语就可以控制字体的样式、位置、大小、排版等等。
逻辑推理是人类智能的核心能力,也是多模态大语言模型 (MLLMs) 的关键能力。随着DeepSeek-R1等具备强大推理能力的LLM的出现,研究人员开始探索如何将推理能力引入多模态大模型(MLLMs)
与OpenAI分道扬镳后,Figure 02开启日夜进厂打工模式。
能够完成多步信息检索任务,涵盖多轮推理与连续动作执行的智能体来了。通义实验室推出WebWalker(ACL2025)续作自主信息检索智能体WebDancer。
2 月份,我们在《AI 语音,真的有感情了?》选题中,选取了知名影视剧《甄嬛传》中的片段来测试 4 款 AI 语音合成模型在情感表达上的表现。当时的结论是,AI 语音模型们的表现力依然不足,仍有待加强。
生成式 AI 正在帮助企业完成一项迟来的任务:更新自己的信息技术系统,将老旧过时的代码重写成现代编程语言形式,特别是那些广泛应用、但比披头士乐队还要“古老”的编程语言。
相信大家已经听过很多 AI 在生命科学领域的一次次革命性进展,甚至 2024 年的诺贝尔化学奖都颁给了计算生物学领域的科学家们。
AI模型用于工业异常检测,再次取得新SOTA!
本周,于旧金山举办的 Snowflake Summit 2025 上,OpenAI CEO Sam Altman 开门见山地指出,对于 2025 年仍在观望的企业领导者,他的建议只有一句:直接开始,别等下一个版本。
就在刚刚,DeepMind科学家Jon Richens表示,自己的一篇ICML 2025论文发现,智能体就是世界模型!总之,如果要实现AGI,是绝对不存在无模型的捷径的。而这个说法,恰巧跟Ilya 23年的预言不谋而合了。