北航提出代码大模型的 Scaling Laws:编程语言差异与多语言最优配比策略
北航提出代码大模型的 Scaling Laws:编程语言差异与多语言最优配比策略在代码大模型(Code LLMs)的预训练中,行业内长期存在一种惯性思维,即把所有编程语言的代码都视为同质化的文本数据,主要关注数据总量的堆叠。然而,现代软件开发本质上是多语言混合的,不同语言的语法特性、语料规模和应用场景差异巨大。
搜索
在代码大模型(Code LLMs)的预训练中,行业内长期存在一种惯性思维,即把所有编程语言的代码都视为同质化的文本数据,主要关注数据总量的堆叠。然而,现代软件开发本质上是多语言混合的,不同语言的语法特性、语料规模和应用场景差异巨大。
12 月 19 日,Cursor 宣布将收购代码评审初创公司 Graphite。Graphite 聚焦于代码完成之后的流程,帮助团队评审变更、判断代码是否已具备上线条件。Graphite 联合创始人 Tomas Reimers 与 Cursor CEO Michael Truell 的共识是:“AI 的引入意味着会有更多代码被写出来,也就必然意味着,需要被评审的代码只会更多。”
近日,DeepMind 最新推出了一种全新的用于代码安全的 AI Agent—CodeMender,它使用 Gemini Deep Think 自动修补关键软件漏洞。它会检查补丁是否正确、是否能够修复根本原因,并且不会引起其他任何破坏。这确保只有高质量的解决方案才会被发送给人工审核。
刚刚,马斯克自曝,xAI的整个代码库都被偷走了。 就在今天,xAI起诉了一名离职员工,指控他窃取商业机密。 而且按xAI的说法,这名员工已经跳槽到了OpenAI。
硅谷炸锅了!xAI创始工程师卖掉700万美元股票后,涉嫌窃取Grok核心代码库「叛逃」OpenAI,马斯克怒发推文「他下载了整个xAI代码库」。这场价值数十亿美元的叛逃案,已在加州法院开打。恩怨升级,马斯克 vs OpenAI,谁将笑到最后?
集成全球顶尖的编程模型、最强的上下文工程能力,可一次检索10万个代码文件。阿里全新AI代码编辑器Qoder表示——它可以理解整个代码库,并交付真正适合的代码。
长久以来我们都知道在Prompt里塞几个好例子能让LLM表现得更好,这就像教小孩学东西前先给他做个示范。在Vibe coding爆火后,和各种代码生成模型打交道的人变得更多了,大家也一定用过上下文学习(In-Context Learning, ICL)或者检索增强生成(RAG)这类技术来提升它的表现。
零代码、零bug,30分钟即可创建新网站。
TechCrunch消息,AI代码审查初创公司Greptile正洽谈3000万美元A轮融资,估值1.8亿美元。
你有没有想过,为什么有些AI产品一上线就获得用户疯狂追捧,而另一些技术看起来更先进的产品却在市场上反响平平?为什么Cursor这样的AI代码编辑器能够席卷开发者社区,而许多功能更强大的AI工具却始终无法获得用户信任?