余家辉。
一个在中文互联网几乎隐形的名字,却让硅谷两大AI巨头撕破脸皮。
浙江慈溪人,高二就被招去中科大少年班,博士师从“计算机视觉之父”黄煦涛,现字节Seed掌舵人吴永辉的嫡系弟子,还与豆包核心技术大牛杨建朝的上升轨迹有着惊人的重合……
扎克伯格亲自下场挖他,传出“1亿美元年薪”,刷新AI人才市场纪录。
奥特曼在一旁急得跳脚,公开指控Meta的作派“令人反感”,杀人诛心说“总有人唯利是图”。OpenAI内部员工更是哀嚎:这是巨大损失。
网友甚至调侃:
AI顶级研究员收入堪比C罗转会费,但知名度连十八线网红都不如。
一时间,AI圈比娱乐圈还精彩。
更魔幻的是,当全世界都在讨论这个天价薪酬包时,当事人却像人间蒸发一样,没有回应,没有声明,甚至连个动态都没发。
所以,余家辉到底是何许人也?他凭什么?
余家辉,刚好30岁,出生于1995年,打小天资聪颖,2012年从浙江慈溪中学考到了中科大少年班学院。
本科就在大大小小的比赛中初露头角,拿下了全国并行应用挑战赛(PAC2015)冠军、智能化技术训练营一等奖、大学生超算竞赛(SCC)季军……
△右为19岁的余家辉,图源自中科大官网
2016年从中科大毕业后,只身前往UIUC(美国伊利诺伊大学厄巴纳-香槟分校)读博,师从AI视觉一代华人教父黄煦涛,让他打下了扎实的学术基础。
黄煦涛(Thomas S.Huang)是美国工程院院士,也是中国工程院外籍院士、中国科学院外籍院士,他是计算机视觉、模式识别、多媒体等领域最资深的华人科学家之一。
从教57年,黄煦涛培养了众多AI领域的核心人才,包括云从科技创始人兼CEO周曦、文远知行创始人兼CEO韩旭、AI大牛颜水成等等。
但仅有名师指导还不够,真正让余家辉脱颖而出的是其丰富的跨平台经验。
在加入谷歌前,他曾在微软亚洲研究院、旷视研究院、Adobe、Jump Trading(顶级量化交易机构)、Snap(社交媒体公司)、百度美国研发中心、英伟达都实习过,从底层框架到高效算法,再到视觉应用,4年7段实习让他积累了难得的实战经验。
2019年5月进入谷歌,一待就是4年多时光。
余家辉博士毕业那一年不幸遇上导师黄煦涛离世,但他在谷歌遇到了人生中另一个重要的技术领路人——吴永辉。
两人频频联手,搭档默契,发表了多篇具有行业影响力的研究成果。
△左为吴永辉,右为余家辉
吴永辉是谷歌Fellow级大佬,南京大学校友,博士毕业于加州大学河滨分校,在谷歌深耕AI近17年。
值得一提的是,今年2月吴永辉离开谷歌加盟了字节Seed,专注大模型基础研究。
有贵人指点,余家辉迅速成长为谷歌DeepMind团队的核心力量。离开谷歌之前,余家辉已经是Gemini多模态项目的联合负责人,同时是PaLM-2模型的核心贡献者。
能在谷歌参与这种级别的项目,说明他不仅有研究能力,还具备大规模工程实施的经验。
2023年10月,余家辉加盟OpenAI,担任感知团队负责人。短短不到2年时间里,他带队领导了4o、4.1、o3、o4-mini等一众明星模型的多模态部分研发。
今年4月,余家辉还在𝕏平台上介绍他们所实现的技术新突破——o3和o4-mini模型,是截至当时OpenAI“最智能、最能干的模型”。
正因以上种种经历,余家辉也成为了极少数同时了解谷歌和OpenAI技术路线的研究者,他深谙两家公司的工程文化、技术优势、战略思路。
对于急需在AI竞争中翻身的Meta来说,这样的背景就是战略资源。
一定程度上,扎克伯格也不仅仅是买他这个人本身,余家辉就像是一颗苍天大树中的重要节点,凭借每一个不同身份都可以链接和吸引到无数优秀人才奔赴Meta、追随于他。
履历固然亮眼,但真正让余家辉在AI圈站稳脚跟的,还是他在技术创新上的硬实力。
数字不会撒谎:34780次引用。
这是余家辉在谷歌学术上的论文引用数,虽说远远不敌Geoffrey Hinton、LeCun、李飞飞等大神,但在AI领域也意味着不小的影响力。
其多篇论文发表在CVPR、ICCV、ECCV、ICML等AI顶会上。
而真正让硅谷巨头们在意的,是这些研究背后的实用价值。
DeepFill技术解决了图像修复的核心难题。在黄煦涛的指导下,余家辉于2018年发表的DeepFill v1和2019年的DeepFill v2,让AI能真正理解图像内容,不再是简单的像素填补。
这项技术成为图像修复领域的重要突破,GitHub上获得了3409次星标,在学术界和工业界都产生了广泛影响。
举个例子,有了DeepFill v2,你能用AI随心所欲P图了。
△右边那个骑车的人,被擦掉了
同样备受业界认可的还有Conformer模型,该模型基于Transformer架构改进而来,成为语音识别技术的重要进展。这是余家辉与吴永辉共同开发的成果。
想象一下,当你对着手机语音助手说话时,背景一嘈杂它就听不清你在说什么,或者你说快一点、带点方言口音它就压根听不懂了;看视频时自动生成的字幕错误百出;语音输入法总是打错字,你得不断修改……
Conformer模型的出现,就是为了有效解决以上这些问题。
此外,余家辉和吴永辉共同开发的CoCa图文基础模型(2022年,引用1752次),让计算机能更智能地理解图像和文本之间的关系,推动了多模态AI技术的发展,尤其在图像识别、检索和生成描述等方面具有广泛应用前景。
计算机视觉、多模态理解、语音识别、神经网络架构……横跨AI多个细分研究领域、并且已经得到实际落地验证的成果和经验,让余家辉成为了不可多得的“全栈AI科学家”。
然而,比起过往的技术成就,更让业界刮目相看的,或许是余家辉对AI发展趋势的精准把握。
早在ChatGPT彻底引爆全球之前,他就已经展现出了超越同龄人的技术洞察力。
2022年12月,余家辉在「硅谷101」播客中发表的观点现在看来几乎句句应验。
面对引发满世界震惊的ChatGPT,他却保持异常冷静:“一开始没有特别惊讶,因为OpenAI在语言生成模型上已经耕耘了很多年”。
这种判断来自对技术发展脉络的深度理解,以及他一贯的谨慎理性。普通人看到突然爆发,他看到的是渐进式的积累。
而当被问到ChatGPT会不会替代谷歌搜索时,他给出“降维打击”的判断。聊天机器人不是产品替代,而是交互范式的重新定义。事实证明,ChatGPT的确创造了全新的人机交互方式。
关于业界十分流行的“大力出奇迹”观点,他当时直接反驳:
“可能一开始你想着只要有数据、有算力就可以,但其实真的做起来的时候发现全部都是问题。”
这个判断现在已经成为行业共识。钱和GPU只是基础,工程能力、人才组织、技术积累才是关键。
“时间积累、人才积累、组织积累、自信积累”则是余家辉当时总结的关于OpenAI成功的四个要素。
这套理论现在被广泛认可为AI公司成功的必要条件,特别是“组织积累”这一点,预言了后来各大公司在AI团队架构上的调整。
在商业化路径上,他同样展现了超前的战略眼光:“真正更长远的机会是在基建上,真正有商业化价值的是在应用层面”。
中美科技巨头们正投入大量资源夯实基础建设,基于此,我们看到各类AI应用正在加速涌现并展现价值。
而这,还只是他极少数公开发声中的吉光片羽……
在AI进入下半场的关键时刻,拥有正确判断力的人才变得比黄金还珍贵。谁能看清技术演进的真正路径,谁就能在这场没有硝烟的战争中抢占先机。
小扎求贤心切,余家辉此刻被Meta选中不是偶然,而是必然。
在AI军备竞赛中,Meta确实落后了。OpenAI和Google都在全力冲刺AGI,可Llama 4的表现不及预期,Meta现在连一款有竞争力的大模型都拿不出手。
新组建的超级智能实验室50人规模,由Alexandr Wang(Scale AI前CEO)带队领导,研发下一代模型,实现“为每个人提供个人超级智能” 的承诺——这是Meta最后的卡位机会。
对Meta来说,他们买的不是一个员工,而是通往AGI的入场券。
而对于余家辉来说,在Meta开启新的旅程或许是“激动人心且意义重大的”,就像他曾经对离开OpenAI的同事送上的祝福一样。
硅谷的抢人大战还在继续,很显然,中国人正在成为这场游戏的主角。
文章来自于微信公众号“量子位”。