
DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COT
DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COTOpenAI o1和DeepSeek-R1靠链式思维(Chain-of-Thought, CoT)展示了超强的推理能力,但这一能力能多大程度地帮助视觉推理,又应该如何细粒度地评估视觉推理呢?
OpenAI o1和DeepSeek-R1靠链式思维(Chain-of-Thought, CoT)展示了超强的推理能力,但这一能力能多大程度地帮助视觉推理,又应该如何细粒度地评估视觉推理呢?
Llama都在用的RoPE(旋转位置嵌入)被扩展到视频领域,长视频理解和检索更强了。
今天凌晨,一个创业消息引爆了整个 AI 社区:一家名为 Thinking Machines Lab 的新创业公司建立了,而其背后有一个堪称有史以来最豪华的大模型创业团队阵容。
ElevenLabs 似乎无处不在。2025年 1 月,Lex Fridman在基辅对乌克兰总统Zelenskyy进行了长达三小时的采访,采访中使用了ElevenLabs 提供的AI英语、乌克兰语和俄语翻译,完美地保留了泽连斯基的语音和语调。这是AI消除语言障碍能力的一次引人注目的展示。
人类通过课堂学习知识,并在实践中不断应用与创新。那么,多模态大模型(LMMs)能通过观看视频实现「课堂学习」吗?新加坡南洋理工大学S-Lab团队推出了Video-MMMU——全球首个评测视频知识获取能力的数据集,为AI迈向更高效的知识获取与应用开辟了新路径。
传统的偏好对⻬⽅法,如基于⼈类反馈的强化学习(RLHF)和直接偏好优化(DPO),依赖于训练过程中的模型参数更新,但在⾯对不断变化的数据和需求时,缺乏⾜够的灵活性来适应这些变化。
我是2024年7月毕业的博士,找工作是从2023年农历新年之后开始的,我一般只和主动联系上来的公司聊,最开始联系到的,是华为计算产品线的计算研究部昇腾和鲲鹏lab,随后联系的有上海人工智能实验室,幻方AI(年底改名为deepseek)。
整个过年,DeepSeek给我用的都卡炸了。 我自己在官方app和网页里,到现在也还是10条回复有8条是“服务器blabla,请稍后重试”。 每次见到这句话,我都想脑溢血。
由港科广、中南、西湖大学、UIUC、新加坡国立大学、上海 AI Lab、宾夕法尼亚大学等团队联合发布的首篇聚焦医疗领域具身智能的综述论文《A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities》正式上线,中南大学刘艺灏为第一作者
作为这个活动背后的攒局者,锦秋基金不仅投资了北美的一些活跃的AI基金,与全球AI市场建立连接,也特别推出了Soil种子计划,以激进的、快速灵活决策的方式支持AI领域的早期创业者。过去的2024年,锦秋频繁出手了AI达人营销平台Aha Lab、AI内容平台造梦次元等诸多项目。