
模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向
模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向在过去的 2023 年中,大型语言模型(LLM)在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展,似乎我们即将进入一个可喜的新阶段:在不增大模型规模的前提下让模型变得更好,甚至让模型变得更小。
在过去的 2023 年中,大型语言模型(LLM)在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展,似乎我们即将进入一个可喜的新阶段:在不增大模型规模的前提下让模型变得更好,甚至让模型变得更小。
大模型幻觉问题还有另一种解法?斯坦福联手OpenAI研究人员提出「元提示」新方法,能够让大模型成为全能「指挥家」,汇聚不同专家模型精华,让GPT-4的输出更精准。
一项ICLR拒稿结果让AI研究者集体破防,纷纷刷起小丑符号。争议论文为Transformer架构挑战者Mamba,开创了大模型的一个新流派。发布两个月不到,后续研究MoE版本、多模态版本等都已跟上。
今天,美国国家科学基金会( NSF )正式启动这个庞大的试点项目,让更多美国研究人员和学校(而不仅仅是财力雄厚的科技公司或精英大学及其研究人员)获得计算资源。
“你觉得指纹是独一无二的存在吗?”这是3年前,刚刚考入美国哥伦比亚大学计算机系的加布·郭(音译)和导师闲聊时说起的一个问题。3年后,在导师指导下,他终于就这个问题得出了答案。
今年初,OpenAI的崛起似乎预示着Google的厄运。但这家科技巨头已经平息了其AI研究人员之间的争吵,并且终于以其最新的AI技术Gemini开始进攻。现在,困难的部分开始了。
这项综述性研究报告批判性地分析了生成式AI的发展现状和发展方向,并探究了谷歌Gemini和备受期待的OpenAI Q*等创新成果将如何改变多个领域的实际应用。
近期,关于GPT-4.5提前泄露的消息在全网疯传,逼的OpenAI研究员甚至Altman本人下场否认,但这仍然挡不住愉快吃瓜的网友。
喂给大模型语料——最初是维基百科和Reddit,后来扩展到音频、视觉图像甚至雷达和热图像——后者广义上说是换了种表达方式的语言。也因此有生成式AI的创业者认为,一个极度聪明的大语言模型就是那个通往AGI最终答案,多模态的研究道路只是目前对前者的底气不足。
AI社区大佬Sebastian总结了2023年全年AI行业的热点和问题,针对开源社区和AI研究的热点问题给出了自己读到的解读和发展建议,精彩内容千万不能错过。