破解36年前魔咒!Meta推出反向训练大法消除大模型「逆转诅咒」
破解36年前魔咒!Meta推出反向训练大法消除大模型「逆转诅咒」大语言模型的「逆转诅咒」,被解开了。近日,来自Meta FAIR的研究人员推出了反向训练大法,让模型从反方向上学到了事实之间的逻辑,终于改进了这个困扰人们已久的问题。
大语言模型的「逆转诅咒」,被解开了。近日,来自Meta FAIR的研究人员推出了反向训练大法,让模型从反方向上学到了事实之间的逻辑,终于改进了这个困扰人们已久的问题。
Stability AI推出Stable LM 2 12B模型,作为其新模型系列的进一步升级,该模型基于七种语言的2万亿Token进行训练,拥有更多参数和更强性能,据称在某些基准下能超越Llama 2 70B。
困扰全世界几个世纪的「臭名昭著」谜题——费马大定理,或将被AI攻克?一位英国数学家宣布,即将启动用Lean重现费马大定理证明过程的项目,将100页证明变成代码。从此,世界顶尖数学难题的证明将成为「众包」项目,你我都可以进去添几笔。
训大模型的方法可能要被革新了!AI大神Karpathy发布的新项目仅用1000行的C语言训完GPT-2,而不再依赖庞大的GPT-2库。他本人预告,即将上线新课。
距离AI「杀死」搜索引擎,到底还差几步?
行业狂飙之际,版权利益争夺渐酣今年2月,美国OpenAI公司发布了首个视频生成模型“Sora”,再次掀起全球追进生成式人工智能的热潮。然而,据《纽约时报》近日报道,科技巨头OpenAI和谷歌被指涉嫌使用YouTube视频的转录文本来训练其人工智能模型,这一行为可能侵犯了YouTube创作者的版权。
AI还教人烹饪毒鹅膏 如今,AI技术正在被广泛地用于我们生活中的方方面面,但是有科学家提醒大家,目前还是先不要把你的健康托付给一些APP,因为它们很有可能会犯错,甚至有可能要了人的命。
宁可犯错,不愿错过。 以国内大模型初创企业主要投资方的身份,腾讯和阿里再次站在了“金主爸爸”的位置。
不是大模型变坏了,是用大模型的人变坏了。
小孩子都会的脑筋急转弯推理题,GPT-4和Claude 3做不出?国外一位开发者小哥坚称这一观点,认为GPT模型在训练集外毫无推理能力,无法实现AGI,甚至悬赏1万美元,发起比赛。然而,他当天就被光速打脸了!网友用高能的prompt,让GPT-4和Claude 3几乎达到百分百的正确率。
毫无疑问,数学家的工作方式,正在被AI颠覆!陶哲轩转发的这期美国数学学会通报,大咖云集,星光璀璨。针对AI改变数学的议题,他们中有降临派,也有怀疑论者。而陶哲轩也直接高呼:这个领域太快了,现在我没发表的论文已经不够看了!
全网高质量数据集告急!OpenAI、Anthropic等AI公司正在开拓新方法,训练下一代AI模型。
自动将不同开源模型进行组合,生成具有新能力的新模型,Sakana AI开发的新方法做到了!
北大团队联合兔展发起的 Sora 复现计划,现在有了新成果。
最近,多模态大模型(LMM)取得了一系列引人注目的成就,特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各个领域的实用性和灵活性,也为更多视觉场景下的应用探索了新的道路。
近日,来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了FouriScale,该方法在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。
陶哲轩点赞转发,《美国数学学会通报》用一整期特刊介绍了AI给数学带来的改变。
这两天,一个神秘的“音乐版Sora”产品被盛传即将发布,Suno和它比起来都不算什么。
第一个能听懂你说话的语气、有“情商”的AI火了!
算力供需平衡预计到2030年才能实现
牙科AI加速渗透:抉择与挑战 口腔行业重磅融资来袭!
阿里的通义千问(Qwen),终于拼齐了1.5系列的最后一块拼图—— 正式开源Qwen 1.5-32B。
OpenAI的秘密武器、ChatGPT背后功臣RLHF,被开源了。来自Hugging Face、加拿大蒙特利尔Mila研究所、网易伏羲AI Lab的研究人员从零开始复现了OpenAI的RLHF pipeline,罗列了25个关键实施细节。
近日,天才程序员Justine Tunney发推表示自己更新了Llamafile的代码,通过手搓84个新的矩阵乘法内核,将Llama的推理速度提高了500%!
2026年的数据荒越来越近,硅谷大厂们已经为AI训练数据抢疯了!它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天AI忽然吐出了我们的自拍照或者隐私聊天,该怎么办?
《龙珠》、《神奇宝贝》、《新世纪福音战士》等上个世纪开播的动漫是很多人童年回忆的一部分,它们曾给我们带来了充满了热血、友情与梦想的视觉之旅。某些时候,我们会突然有重温这些童年回忆的冲动,但我们却可能会略带遗憾地发现这些童年回忆的分辨率非常低,根本无法在客厅的 4K 大屏电视上创造出良好的视觉体验,以至于可能阻碍我们与在高分辨率数字世界中成长的孩子分享这些童年回忆。
GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力,成为如今最领先的多模态大模型。
Gecko 是一种通用的文本嵌入模型,可用于训练包括文档检索、语义相似度和分类等各种任务。文本嵌入模型在自然语言处理中扮演着重要角色,为各种文本相关任务提供了强大的语义表示和计算能力。
在大模型落地应用的过程中,端侧 AI 是非常重要的一个方向。近日,斯坦福大学研究人员推出的 Octopus v2 火了,受到了开发者社区的极大关注,模型一夜下载量超 2k。20 亿参数的 Octopus v2 可以在智能手机、汽车、个人电脑等端侧运行,在准确性和延迟方面超越了 GPT-4,并将上下文长度减少了 95%。此外,Octopus v2 比 Llama7B + RAG 方案快 36 倍。
AI面试之“道高一尺,魔高一丈”