曝顶级AI大牛,加入阿里通义!事关下一代大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
曝顶级AI大牛,加入阿里通义!事关下一代大模型
7476点击    2025-09-29 22:47

曝顶级AI大牛,加入阿里通义!事关下一代大模型


传国际AI大牛空降阿里通义!


智东西9月29日消息,据“互联网八卦小喇叭”等媒体爆料,全球顶尖AI科学家、IEEE Fellow许主洪(Steven Hoi)已加盟阿里通义,转向通义大模型的相关研发工作。


许主洪拥有超20年AI产业和学术经验,是新加坡管理大学终身教授、曾任新加坡南洋理工大学终身副教授,在AI领域发表了300多篇顶级学术论文,论文被引用超过5万次,曾被斯坦福大学评为全球顶尖1%的AI科学家之一


作为多模态大模型领域的领军人物,许主洪曾担任全球最大的企业软件公司Salesforce的副总裁,从零开始构建了Salesforce在亚洲的AI研究生态系统;他还于2023年创立了一家多模态AI创企HyperAGI,可以说是业内少有的产学研多栖AI大牛


曝顶级AI大牛,加入阿里通义!事关下一代大模型


▲许主洪


2025年2月,许主洪加入阿里并担任阿里集团副总裁、智能信息事业群首席科学家,向智能信息事业群总裁吴嘉汇报,负责AI To C业务的多模态基础模型及智能体(Agents)研究与应用


按原本的定位,许主洪的核心任务大概是组建顶级AI算法团队,整合通义(应用)、夸克、天猫精灵等内部资源,促进多模态交互产品迭代,加速AI To C商业化。


在今年6月的2025上海世界移动通信大会上,许主洪发表题为《多模态大模型发展与演进》的演讲,在演讲中他以夸克App的AI超级框、AI相机等功能为例讲解了多模态大模型的应用场景。


曝顶级AI大牛,加入阿里通义!事关下一代大模型


▲许主洪以夸克为例讲解多模态大模型应用场景


然而,在加入阿里7个多月后,许主洪传出加入通义实验室团队,这意味着他可能将从面向AI To C商业化研发转向更基础前沿的大模型研发。


如果消息属实,这意味着阿里完成了一次重大的人才重配,也标志阿里在多模态大模型研发领域再投重码。


当下,阿里通义大模型正处于“拼迭代速度”、“多模态发展”的关键阶段,十分需要许主洪这样对口的顶尖产学研多栖且有分量的AI大牛坐镇。


在9月底举办的2025云栖大会期间,阿里云智能集团首席技术官、通义实验室负责人周靖人透露,连续发布数十款模型背后有战略考量:全球AI模型进展都在加速,整个通义家族一直在跟全球AI领域的领先者进行你追我赶,AI今天已进入加速期,比拼的是模型迭代效率;同时模型从单模态到多模态的演进是必然趋势,阿里期待接下来在多模态方面还有进一步的创新和突破。


许主洪或是目前阿里最适合牵头做这件事情的人。他曾在在今年5月蚂蚁技术开放日上的演讲中提到,当下,用统一的框架做理解和生成,发展多模态大模型的一大演进趋势。但这一领域发展尚处于的初级阶段,需要实践验证。


曝顶级AI大牛,加入阿里通义!事关下一代大模型


▲许主洪在讲解统一多模态模型产业发展脉络


许主洪指出,统一理解与生成的多模态大模型面临众多技术挑战在全模态交互挑战方面,当下支持音、视、图、文全模态交互的公开单模型非常少见;在理解与生成统一方面,图像和语意的理解生成统一模型鲜有出现,且理解和生成效果难以平衡。


而在6月的演讲中,许主洪也提到:“多模态Agent AI时代才刚刚开始,未来要真正达到AGI,我们还需要解决很多技术难题,包括多模态大模型的基础能力、Agent智能体的核心功能模块、数据世界的连接与操作、物理世界的交互与控制等等,都有很多的挑战,但是这也是未来多模态大模型行业的机会。”


截至目前,阿里及许主洪方未对此进行置评。



文章来自于微信公众号 “智东西”,作者 “智东西”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
逆向大模型

【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。

项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file