AI资讯新闻榜单内容搜索-小模型

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

当前最火的大模型，竟然三分之二都存在过拟合问题？

来自主题: AI技术研报

5853 点击 2024-05-03 20:54

对于小型语言模型（SLM）来说，数学应用题求解是一项很复杂的任务。

来自主题: AI技术研报

8681 点击 2024-04-29 20:35

是的，就是在一场《街头霸王》游戏现场PK中，发生了这样的名场面。

来自主题: AI技术研报

7317 点击 2024-04-26 11:02

从Llama 3到Phi-3，蹭着开源热乎劲儿，苹果也来搞事情了。

来自主题: AI技术研报

6766 点击 2024-04-25 20:01

这段时间，AI模型界是真的热闹，新的模型不断涌现，不管是开源还是闭源，都在刷新成绩。就在前几天，Meta就上演了一出“重夺开源铁王座”的好戏。发布了Llama 3 8B和70B两个版本，在多项指标上都超越了此前开源的Grok-1和DBRX，成为了新的开源大模型王者。

来自主题: AI资讯

8865 点击 2024-04-24 10:20

它通过将压缩记忆（compressive memory）整合到线性注意力机制中，用来处理无限长上下文

来自主题: AI资讯

8955 点击 2024-04-13 20:07

Mistral 可以说是欧洲目前最有代表性的 AI 公司，开源小模型、MoE、专注欧洲多语言市场等等，都让它与美国的几家大模型公司如 OpenAI、Anthropic 截然不同。

来自主题: AI资讯

7992 点击 2024-03-25 12:52

早在 2020 年，陶大程团队就发布了《Knowledge Distillation: A Survey》，详细介绍了知识蒸馏在深度学习中的应用，主要用于模型压缩和加速。随着大语言模型的出现，知识蒸馏的作用范围不断扩大，逐渐扩展到了用于提升小模型的性能以及模型的自我提升。

来自主题: AI技术研报

5445 点击 2024-03-16 15:28

前段时间，种子轮融资3000万美元的日本公司Sakana AI，因为众多亮眼标签，受到很多关注——谷歌科学家、硅谷原班人马、总部扎根东京、小模型……

来自主题: AI资讯

11491 点击 2024-03-04 09:45

Google 最近在大模型上动作不断，先是发布了性能更强大的多模态 Gemini 1.5 Pro，然后是开源的小模型 Gemma，评测结果超过了 7b 量级的 Llama 2。

来自主题: AI资讯

7932 点击 2024-03-02 10:53